我正在嘗試使用Lucene進行不間斷或重複數據刪除匹配。基本上,我有一個記錄文件,我想根據某些字段進行分組(模糊搜索),並用匹配鍵取回結果,該匹配鍵告訴我該文件中的哪些記錄相互匹配。lucene索引匹配
這可能嗎?
我正在嘗試使用Lucene進行不間斷或重複數據刪除匹配。基本上,我有一個記錄文件,我想根據某些字段進行分組(模糊搜索),並用匹配鍵取回結果,該匹配鍵告訴我該文件中的哪些記錄相互匹配。lucene索引匹配
這可能嗎?
這是可以做到(如果我理解正確此)。你會索引你的條件/記錄將一次搜索。在第二遍中,您將搜索每個術語並記錄結果。
在對文檔進行預處理時,您可以生成一個彙總這些字段的散列並將其存儲(如NOT_ANALYZED
),這樣您只需用一個已知大小的字段進行搜索,看看MessageDigest。這是我通常爲重複檢測文件內容所做的工作(因爲對於單個查詢,內容可能太大)。
如果您正在尋找的是創建更復雜的查詢,請嘗試使用CachingWrapperFilter,這樣,後續對重複數據刪除算法的調用將快得多。
你有什麼試過?你如何使用lucene(它有很多版本的各種語言/框架)?幫助我們幫助你。 – Tim
我正在使用Java Lucene 3.6。我可以在索引後循環輸入文件,並根據我感興趣的字段的索引進行搜索。這似乎效率低下,因此我想知道是否有一種有效的方法來匹配索引內的文檔。 – user1473286