1

熊陪我度過我的LSI的適度理解(機械工程背景):潛在語義分析(LSA)單值分解(SVD)理解

在LSI進行奇異值分解後,你有3個矩陣:

U,S和V轉置。

U將單詞與主題進行比較,S是對每個要素的強度的一種度量。 Vt將主題與文檔進行比較。

U dot S dot Vt 

返回SVD之前的原始矩陣。如果沒有做深入的太多(無)代數看來:

U dot S dot **Ut** 

返回由長期矩陣,它提供了條件之間的比較的術語。即一個術語與其他術語的相關程度如何,DSM(設計結構矩陣)是比較單詞而不是單元的類別。我可能是完全錯誤的,但是我在一個樣本數據集上嘗試過,結果似乎是有道理的。這可能只是偏見(我想它工作,所以我看到了我想要的)。文檔受保護後,我無法發佈結果。

雖然我的問題是:這是否有意義?按道理?數學?

感謝您的任何時間/回覆。

回答

0

如果你想知道一個詞如何相關的是另一個你可以只計算

(U點S)

條款是通過代表行向量。然後,您可以通過應用距離函數(例如歐幾里得距離)來計算距離矩陣。一旦通過計算所有矢量之間的距離來製作距離矩陣,結果矩陣應該是空心對稱的,所有距離> 0。如果距離A [i,j]很小,則它們是相關的,否則它們不是。