在二手車銷售商網站上有成千上萬的汽車廣告 的這是一個典型的廣告 - >alfa-romeo索引Solr中的結構與Apache Nutch的
如果我抓取所有這些廣告的網頁,所有diferent車,我指數所有這些無用的文字,我不想要的,我想只抓取像
標題,描述,而不是整個頁面的車公里,功率CV(HP),
進出口使用Nutch的自它與solr很好的整合,但nutch準備抓取所有東西,而且在插件方面沒有找到一個好的解決我的問題。
已經使用nutch-custom-search did not工作。
你知道的東西來解決我的問題,我只是想抓取特定網站的網頁,並且網頁的只是特定部分,並建立索引到Solr
也許與Solr的良好集成另一個履帶?
泰
我也看看scrapy太 – Sodacni
好知道! scrapy也是一個很好的解決方案! –