2015-11-11 24 views

回答

0

這本書是正確的。術語文檔矩陣(維度爲DxT)被分解爲三個矩陣的乘積。中間矩陣(在本書中表示爲\ Sigma)是維數爲TxT(示例中T = 5)的關鍵矩陣。

直觀上,您可以將此矩陣看作表示術語之間的關係。在最好的情況下,這個矩陣的所有列矢量應該是線性無關的,這意味着這形成了術語空間中的基矢量,並且術語之間沒有依賴關係。但是,這在實踐中並不正確。你會發現這個矩陣的秩通常比T小(比如T')幾個數量級,這意味着在這個矩陣中有T-T'線性相關的列向量。

然後可以通過僅考慮T'xT'項矩陣來對該矩陣進行較低階近似。實際上,您可以採用矩陣的主特徵值,並使用旋轉和縮放將這些向量投影到這些特徵向量上(作爲新基準處理)。這正是頻譜分解或PCA(或LSA)所做的。

+0

但章節中的定理18.3說Σ是奇異值分解後的M * N矩陣... – clement116