2012-02-23 54 views
2

我已經使用nutch抓取了一些數據,並設法將其注入elasticsearch。但我有一個問題:如果我再次注入抓取的數據,它會創建重複。有沒有辦法阻止這種情況?使用nutch時複製 - > elasticsearch解決方案

有沒有人設法解決這個問題,或者對如何解決這個問題有什麼建議?試圖將數據發送到elasticSearch前

/SAMUS

回答

2

如果指數每一頁/文件在ElasticSearch相同的ID爬到它不會複製它。您可以使用校驗和/散列函數將頁面的URL轉換爲不同的ID。

您還可以使用Operation_type以確保如果該ID已在索引中不應該重新索引它:

索引操作也接受可用於強制 創建操作的op_type,允許「假如不在」行爲。當使用創建 時,如果索引中已存在由該ID爲 的文檔,則索引操作將失敗。

ElasticSearch index API

相關問題