我設法讓apache nutch索引新聞網站並將結果傳遞給Apache solr。用tika爲apache solr解析數據
使用本教程 https://github.com/renepickhardt/metalcon/wiki/simpleNutchSolrSetup唯一的區別是我決定改用Cassandra。
作爲一個測試,我試圖抓取Cnn,以提取出文章的標題和它的發佈日期。
問題1:
如何從網頁解析數據,提取日期和標題。
我已經找到這篇文章的插件。這似乎有點過時,並不確定它仍然適用。我也讀過Tika也可以使用,但大多數教程都很舊。
http://www.ryanpfister.com/2009/04/how-to-sort-by-date-with-nutch/
另一個SO製品是本
How to extend Nutch for article crawling。我寧願使用Nutch,只是因爲那是我開始的。我真的沒有偏好。
任何事情都會很有幫助。
是您的主要問題只抓住特定的HTML元數據字段(如「pubdate」和「標題」)? – 2014-10-29 03:43:12
是的,我想索引他們在solr。 – user3279550 2014-10-29 20:42:05
你的意思是nutch索引只有一些字段,但標題,日期字段不會索引到solr的權利? – Kumar 2014-10-31 04:03:14