2016-06-08 18 views
0

我一直在嘗試使用「feed」作爲解析器(而不是tika)在Solr上索引RSS頁面。理論上,對於每個RSS的項目,應該在Solr中創建一個文檔。它是創建!但只是暫時的 事實上,一旦索引成功完成,清理工作將刪除所有的RSS項目。Apache Nutch沒有正確指定RSS提要

我的猜測是沒有在爬網數據庫中找到RSS項目的URL,因此它在清潔工作過程中將它們從Solr中刪除它是不是正確?

編輯: 我注意到所有的條目都有相同的「簽名」,因爲收件人決定如此。因此,重複數據刪除將它們標記爲重複項,並將清潔劑清除。

我試圖從發生這種修改,但我不明白爲什麼它已被配置在這種方式。

回答

1

Nutch中的提要插件從提要文件生成多個文檔,而無需獲取那裏列出的URL。我的猜測是,它將所有子文檔的提要頁面分配給相同的簽名,正如你指出的那樣,它們將被重複數據刪除。

這不應該發生,顯然是一個錯誤。你可以爲它打開一個JIRA問題嗎?

您可以從抓取腳本中刪除重複數據刪除步驟,以便將文檔保存在索引中。

或者,您可以編寫一個插件的修改版本,該插件只需從Feed中提取出鏈接並讓Nutch像往常一樣獲取子文檔。這樣每個文檔都會得到自己的簽名,並且重複數據刪除將有意義。

您更喜歡的另一個原因是,訂閱源條目可能不包含子文檔的整個文本/元數據。

有趣的是,我剛剛在StormCrawler中添加了一個用於解析提要的資源,與Nutch中的不同,它只是檢測outlinks並稍後提取它們。

+0

謝謝,我會打開一個jira的問題,並檢查出StormCrawler – rodi

+0

沒問題。隨時將我的答案標記爲有用和/或解決您的問題 –