2012-02-08 25 views
1

在C#中的Lucene中,我試圖找出索引是否包含重複文件或幾乎完全相同,以查看是否需要用新文件替換。要做到這一點,我想出了一個辦法,可以使用MoreLikeThis類,然後獲取相關文檔的列表。然後比較這些相關文檔,看看它們是否與我添加的文檔相匹配 - 比如說90%的匹配。然後程序會詢問用戶是否重複以及要保留哪一個。Lucene中兩個文件之間的區別

  1. 這可以使用Lucene來完成嗎? ...這是去做這件事的最好方法嗎?
  2. 如果不能這樣做,是使用Levenshtein Distance Algorithm比較兩個文件以查看它們是否有類似匹配的最有效方法?

謝謝!

回答

0

用於將文檔與lucene進行比較,您還可以使用TermFreqVector並將TermVector保存在索引中。你也可以計算Dirichlet與這個vecotr的相似度。