2016-08-02 74 views
0

在二手車銷售商網站上有成千上萬的汽車廣告 的這是一個典型的廣告 - >alfa-romeo索引Solr中的結構與Apache Nutch的

如果我抓取所有這些廣告的網頁,所有diferent車,我指數所有這些無用的文字,我不想要的,我想只抓取像

標題,描述,而不是整個頁面的車公里,功率CV(HP),

進出口使用Nutch的自它與solr很好的整合,但nutch準備抓取所有東西,而且在插件方面沒有找到一個好的解決我的問題。

已經使用nutch-custom-search did not工作。

你知道的東西來解決我的問題,我只是想抓取特定網站的網頁,並且網頁的只是特定部分,並建立索引到Solr

也許與Solr的良好集成另一個履帶?

回答

0

也看看https://issues.apache.org/jira/browse/NUTCH-1870這是Nutch的一個XPath的插件,這將允許你提取網頁的所需元素和其存儲在各個字段。

如果你願意看看另一個履帶,看看https://github.com/DigitalPebble/storm-crawler/這是一個基於Apache Storm構建你自己的履帶的一組資源。這種方法的主要收穫是NRT履帶。

+0

我也看看scrapy太 – Sodacni

+0

好知道! scrapy也是一個很好的解決方案! –