我試圖用R語言對相似的文檔進行聚類。 作爲第一步,我計算了我的文檔集的術語 - 文檔矩陣。然後,我爲先前創建的術語 - 文檔矩陣創建潛在語義空間。我決定在實驗中使用LSA,因爲只使用術語 - 文檔矩陣進行聚類的結果非常糟糕。 使用創建的LSA空間可以建立一個不相似矩陣(帶餘弦度量)嗎?我需要這樣做,因爲我使用的聚類算法需要一個不相似矩陣作爲輸入。使用R-lsa包計算文檔在語義空間中的餘弦相似度
這是我的代碼:
require(cluster);
require (lsa);
myMatrix = textmatrix("/home/user/DocmentsDirectory");
myLSAspace = lsa(myMatrix, dims=dimcalc_share());
我需要建立一個不相似矩陣(使用餘弦測量)從LSA空間,所以可以調用聚類算法如下:
clusters = pam(dissimilartiyMatrix,10,diss=TRUE);
不限建議?
在此先感謝!
我的主要問題是我需要使用創建的LSA空間來計算不相似矩陣。你知道怎麼做嗎? – lucasbls1 2013-03-05 17:21:49