2010-08-10 68 views
2

爲了對我從Lucene獲得的結果執行簡單的聚類算法,我必須計算Lucene中2個文檔之間的餘弦相似度,我還需要能夠製作一個質心文檔來表示每個羣集的質心。計算Lucene文檔和質心之間的相似度

我能想到的就是用tf-idf加權構建我自己的Vector Space模型,使用TermFreqVectors和Overall Term頻率來填充它。

我的問題是:這不是一個有效的方法,有沒有更好的方法來做到這一點?

這感覺有點不清楚,所以如何我可以改善我的問題的任何建議也表示讚賞。

回答

0

簡短的回答是:我花了很多的時間(方法太多)尋找到這個號

,並就我所看到的,你可以讓自己的向量空間模型和工作或者使用Mahout來生成一個Mahout向量,您可以在這些向量之間進行比較。我要繼續前進並製作我自己的,所以我正在回答這個問題!

+0

對不起,像這樣碰到,但你是怎麼解決這個問題的?您是否必須自己實現所有功能,或者是否可以重新使用一些隱藏的Lucene現有組件?謝謝 – Marko 2014-08-26 22:08:27

0

爲了獲得一個文檔與其他文檔的相似性,爲什麼不用一個文檔的內容進行一個查詢並針對索引運行查詢? 那樣,你會得到分數(餘弦相似值)

相關問題