1
在C#中的Lucene中,我試圖找出索引是否包含重複文件或幾乎完全相同,以查看是否需要用新文件替換。要做到這一點,我想出了一個辦法,可以使用MoreLikeThis類,然後獲取相關文檔的列表。然後比較這些相關文檔,看看它們是否與我添加的文檔相匹配 - 比如說90%的匹配。然後程序會詢問用戶是否重複以及要保留哪一個。Lucene中兩個文件之間的區別
- 這可以使用Lucene來完成嗎? ...這是去做這件事的最好方法嗎?
- 如果不能這樣做,是使用Levenshtein Distance Algorithm比較兩個文件以查看它們是否有類似匹配的最有效方法?
謝謝!