爲了對我從Lucene獲得的結果執行簡單的聚類算法,我必須計算Lucene中2個文檔之間的餘弦相似度,我還需要能夠製作一個質心文檔來表示每個羣集的質心。計算Lucene文檔和質心之間的相似度
我能想到的就是用tf-idf加權構建我自己的Vector Space模型,使用TermFreqVectors和Overall Term頻率來填充它。
我的問題是:這不是一個有效的方法,有沒有更好的方法來做到這一點?
這感覺有點不清楚,所以如何我可以改善我的問題的任何建議也表示讚賞。
爲了對我從Lucene獲得的結果執行簡單的聚類算法,我必須計算Lucene中2個文檔之間的餘弦相似度,我還需要能夠製作一個質心文檔來表示每個羣集的質心。計算Lucene文檔和質心之間的相似度
我能想到的就是用tf-idf加權構建我自己的Vector Space模型,使用TermFreqVectors和Overall Term頻率來填充它。
我的問題是:這不是一個有效的方法,有沒有更好的方法來做到這一點?
這感覺有點不清楚,所以如何我可以改善我的問題的任何建議也表示讚賞。
簡短的回答是:我花了很多的時間(方法太多)尋找到這個號
,並就我所看到的,你可以讓自己的向量空間模型和工作或者使用Mahout來生成一個Mahout向量,您可以在這些向量之間進行比較。我要繼續前進並製作我自己的,所以我正在回答這個問題!
我已經看過他們,但歡呼無論如何他們是相關的鏈接。 – Mark 2010-08-12 09:54:23
爲了獲得一個文檔與其他文檔的相似性,爲什麼不用一個文檔的內容進行一個查詢並針對索引運行查詢? 那樣,你會得到分數(餘弦相似值)
對不起,像這樣碰到,但你是怎麼解決這個問題的?您是否必須自己實現所有功能,或者是否可以重新使用一些隱藏的Lucene現有組件?謝謝 – Marko 2014-08-26 22:08:27