索引Solr中的結構與Apache Nutch的

在二手車銷售商網站上有成千上萬的汽車廣告的這是一個典型的廣告 - >alfa-romeo 索引Solr中的結構與Apache Nutch的

如果我抓取所有這些廣告的網頁，所有diferent車，我指數所有這些無用的文字，我不想要的，我想只抓取像

標題，描述，而不是整個頁面的車公里，功率CV（HP），

進出口使用Nutch的自它與solr很好的整合，但nutch準備抓取所有東西，而且在插件方面沒有找到一個好的解決我的問題。

已經使用nutch-custom-search did not工作。

你知道的東西來解決我的問題，我只是想抓取特定網站的網頁，並且網頁的只是特定部分，並建立索引到Solr

也許與Solr的良好集成另一個履帶？

泰

2016-08-02 Sodacni

也看看https://issues.apache.org/jira/browse/NUTCH-1870這是Nutch的一個XPath的插件，這將允許你提取網頁的所需元素和其存儲在各個字段。

如果你願意看看另一個履帶，看看https://github.com/DigitalPebble/storm-crawler/這是一個基於Apache Storm構建你自己的履帶的一組資源。這種方法的主要收穫是NRT履帶。

2016-08-03 02:07:38

我也看看scrapy太 – Sodacni

好知道！ scrapy也是一個很好的解決方案！ –

回答