用tika爲apache solr解析數據

我設法讓apache nutch索引新聞網站並將結果傳遞給Apache solr。用tika爲apache solr解析數據

作爲一個測試，我試圖抓取Cnn，以提取出文章的標題和它的發佈日期。

問題1：

如何從網頁解析數據，提取日期和標題。

我已經找到這篇文章的插件。這似乎有點過時，並不確定它仍然適用。我也讀過Tika也可以使用，但大多數教程都很舊。

另一個SO製品是本

How to extend Nutch for article crawling。我寧願使用Nutch，只是因爲那是我開始的。我真的沒有偏好。

任何事情都會很有幫助。

是您的主要問題只抓住特定的HTML元數據字段（如「pubdate」和「標題」）？ – 2014-10-29 03:43:12

是的，我想索引他們在solr。 – user3279550 2014-10-29 20:42:05

你的意思是nutch索引只有一些字段，但標題，日期字段不會索引到solr的權利？ – Kumar 2014-10-31 04:03:14

Norconex HTTP Collector將與您的文檔一起存儲所有可能找到的元數據，而不受限制。範圍從下載頁面時獲得的HTTP Header值到該HTML頁面中的所有標籤。

這可能對你來說太多了。如果是這樣，你可以拒絕那些你不想要的，或者替代，從而明確瞭解您想要保留在你的配置中添加了「KeepOnlyTagger」你<importer>部分的：

<tagger class="com.norconex.importer.tagger.impl.KeepOnlyTagger" 
    fields="title,pubdate,anotherone,etc"/>

2014-10-31 03:52:17

回答