2014-10-19 125 views
0

我設法讓apache nutch索引新聞網站並將結果傳遞給Apache solr。用tika爲apache solr解析數據

使用本教程 https://github.com/renepickhardt/metalcon/wiki/simpleNutchSolrSetup唯一的區別是我決定改用Cassandra。

作爲一個測試,我試圖抓取Cnn,以提取出文章的標題和它的發佈日期。

問題1:

如何從網頁解析數據,提取日期和標題。

我已經找到這篇文章的插件。這似乎有點過時,並不確定它仍然適用。我也讀過Tika也可以使用,但大多數教程都很舊。

http://www.ryanpfister.com/2009/04/how-to-sort-by-date-with-nutch/

另一個SO製品是本

How to extend Nutch for article crawling。我寧願使用Nutch,只是因爲那是我開始的。我真的沒有偏好。

任何事情都會很有幫助。

+0

是您的主要問題只抓住特定的HTML元數據字段(如「pubdate」和「標題」)? – 2014-10-29 03:43:12

+0

是的,我想索引他們在solr。 – user3279550 2014-10-29 20:42:05

+0

你的意思是nutch索引只有一些字段,但標題,日期字段不會索引到solr的權利? – Kumar 2014-10-31 04:03:14

回答

0

Norconex HTTP Collector將與您的文檔一起存儲所有可能找到的元數據,而不受限制。範圍從下載頁面時獲得的HTTP Header值到該HTML頁面中的所有標籤。

這可能對你來說太多了。如果是這樣,你可以拒絕那些你不想要的,或者替代,從而明確瞭解​​您想要保留在你的配置中添加了「KeepOnlyTagger」你<importer>部分的:

<tagger class="com.norconex.importer.tagger.impl.KeepOnlyTagger" 
    fields="title,pubdate,anotherone,etc"/> 

你會發現如何以快速開始配置選項在這裏:http://www.norconex.com/product/collector-http/configuration.html