我必須找到參考文檔與存儲庫中文檔集之間的相似性。有關LSA的疑問
Method :
1. I find the term document matrix for all the documents including the reference document
2. The svd is calculated for this matrix
3. I take the v array(The third result)
4. I transpose this matrix so that the each row represents a document .
5. The first row represents the reference document .
6. I find the cosine similarity beween this row and the rest of the rows
我的疑惑:
,因爲我已經在我的分貝左右7個文件,我只得到8 * 8 VARRAY(文檔矩陣)。如果我單獨發現這8個值的餘弦相似性,我會得到一個正確的結果嗎?
這種方法一般採用嗎?
我使用java來編寫代碼。我利用jama包來找到svd。
8個文件是一個非常小的數據集 – dave 2012-01-27 02:56:31
確定..但找到餘弦相似度我一定要使用在SVD的的U矩陣或V矩陣( usv)矩陣結果? – CTsiddharth 2012-01-27 03:08:37