我一直在嘗試使用「feed」作爲解析器(而不是tika)在Solr上索引RSS頁面。理論上,對於每個RSS的項目,應該在Solr中創建一個文檔。它是創建!但只是暫時的 事實上,一旦索引成功完成,清理工作將刪除所有的RSS項目。Apache Nutch沒有正確指定RSS提要
我的猜測是沒有在爬網數據庫中找到RSS項目的URL,因此它在清潔工作過程中將它們從Solr中刪除它是不是正確?
編輯: 我注意到所有的條目都有相同的「簽名」,因爲收件人決定如此。因此,重複數據刪除將它們標記爲重複項,並將清潔劑清除。
我試圖從發生這種修改,但我不明白爲什麼它已被配置在這種方式。
謝謝,我會打開一個jira的問題,並檢查出StormCrawler – rodi
沒問題。隨時將我的答案標記爲有用和/或解決您的問題 –