計算Lucene文檔和質心之間的相似度

爲了對我從Lucene獲得的結果執行簡單的聚類算法，我必須計算Lucene中2個文檔之間的餘弦相似度，我還需要能夠製作一個質心文檔來表示每個羣集的質心。計算Lucene文檔和質心之間的相似度

我能想到的就是用tf-idf加權構建我自己的Vector Space模型，使用TermFreqVectors和Overall Term頻率來填充它。

我的問題是：這不是一個有效的方法，有沒有更好的方法來做到這一點？

這感覺有點不清楚，所以如何我可以改善我的問題的任何建議也表示讚賞。

2010-08-10 Mark

簡短的回答是：我花了很多的時間（方法太多）尋找到這個號

，並就我所看到的，你可以讓自己的向量空間模型和工作或者使用Mahout來生成一個Mahout向量，您可以在這些向量之間進行比較。我要繼續前進並製作我自己的，所以我正在回答這個問題！

2010-08-10 14:37:27 Mark

對不起，像這樣碰到，但你是怎麼解決這個問題的？您是否必須自己實現所有功能，或者是否可以重新使用一些隱藏的Lucene現有組件？謝謝 – Marko 2014-08-26 22:08:27

2010-08-10 12:02:25

我已經看過他們，但歡呼無論如何他們是相關的鏈接。 – Mark 2010-08-12 09:54:23

爲了獲得一個文檔與其他文檔的相似性，爲什麼不用一個文檔的內容進行一個查詢並針對索引運行查詢？那樣，你會得到分數（餘弦相似值）

2014-02-15 00:10:13 ikel

回答