2012-09-21 60 views
1

使用Lucene,我想在文件的其餘指標來比較的文檔。我發現easy way將作爲查詢提交文檔。問題是,我需要把條件作爲OR-Ring和,最困難的部分,提高與term frequency條款。或術語查詢與提高

我想,如果我修剪文檔的所有空格,並與' OR '取代他們,Lucene的將解析它,解釋它。但是,有沒有一種最複雜的方法來處理這個問題?

而且,這是增強各自的頻率而言最簡單的方法?

回答

1

它看起來像你正試圖重新實現Lucene的MoreLikeThis

+0

+1我考慮看看了這一點。謝謝。 – synack

+0

事實上,我認爲我需要比這更簡單的東西。我只想使用tf * idf方案來比較兩個文檔,即如果這些文檔共享非常罕見的術語,我想獲得高分。 – synack