Apache Nutch沒有正確指定RSS提要

我一直在嘗試使用「feed」作爲解析器（而不是tika）在Solr上索引RSS頁面。理論上，對於每個RSS的項目，應該在Solr中創建一個文檔。它是創建！但只是暫時的事實上，一旦索引成功完成，清理工作將刪除所有的RSS項目。Apache Nutch沒有正確指定RSS提要

我的猜測是沒有在爬網數據庫中找到RSS項目的URL，因此它在清潔工作過程中將它們從Solr中刪除它是不是正確？

編輯：我注意到所有的條目都有相同的「簽名」，因爲收件人決定如此。因此，重複數據刪除將它們標記爲重複項，並將清潔劑清除。

我試圖從發生這種修改，但我不明白爲什麼它已被配置在這種方式。

2016-06-08 rodi

Nutch中的提要插件從提要文件生成多個文檔，而無需獲取那裏列出的URL。我的猜測是，它將所有子文檔的提要頁面分配給相同的簽名，正如你指出的那樣，它們將被重複數據刪除。

這不應該發生，顯然是一個錯誤。你可以爲它打開一個JIRA問題嗎？

您可以從抓取腳本中刪除重複數據刪除步驟，以便將文檔保存在索引中。

或者，您可以編寫一個插件的修改版本，該插件只需從Feed中提取出鏈接並讓Nutch像往常一樣獲取子文檔。這樣每個文檔都會得到自己的簽名，並且重複數據刪除將有意義。

您更喜歡的另一個原因是，訂閱源條目可能不包含子文檔的整個文本/元數據。

有趣的是，我剛剛在StormCrawler中添加了一個用於解析提要的資源，與Nutch中的不同，它只是檢測outlinks並稍後提取它們。

2016-06-08 14:47:43

謝謝，我會打開一個jira的問題，並檢查出StormCrawler – rodi

沒問題。隨時將我的答案標記爲有用和/或解決您的問題 –

回答