Lucene AddIndexes（合併） - 如何避免重複？

我如何確保在合併一些臨時索引（可能包含或不包含重複文檔）時，我最終在主索引中創建了一個副本？Lucene AddIndexes（合併） - 如何避免重複？

感謝

2009-07-12 Roey

這裏有一個辦法：只要每個文件都有一個ID，並重復的文件具有相同的ID：

mark the indexes by I1..Im. 
for i in 1..m, let Ci = all the indexes but Ii 
    for all the documents Dj in Ii, 
    let cur_term = "id:<Dj's id>" 
    for Ik in Ci 
    Ik.deleteDocuments(cur_term) 
merge all indexes

要點是：刪除其ID作爲同所有文件來自其他索引的當前文檔。完成所有索引後，合併它們。我知道這不是優雅，但我不知道更好的算法。

來源

2009-07-13 07:02:06

謝謝，我有點希望避免遍歷整個臨時索引... – Roey 2009-07-13 07:06:28

Lucene AddIndexes（合併） - 如何避免重複？

回答

相關問題