SVD在LSI中的書信息檢索簡介

在例子18.4的書介紹信息檢索。術語 - 文檔矩陣使用SVD分解。我的問題是爲什麼在示例中Σ是一個5 * 5矩陣？它不應該是一個5 * 6矩陣嗎？這是錯的嗎？SVD在LSI中的書信息檢索簡介

2015-11-11 clement116

這本書是正確的。術語文檔矩陣（維度爲DxT）被分解爲三個矩陣的乘積。中間矩陣（在本書中表示爲\ Sigma）是維數爲TxT（示例中T = 5）的關鍵矩陣。

直觀上，您可以將此矩陣看作表示術語之間的關係。在最好的情況下，這個矩陣的所有列矢量應該是線性無關的，這意味着這形成了術語空間中的基矢量，並且術語之間沒有依賴關係。但是，這在實踐中並不正確。你會發現這個矩陣的秩通常比T小（比如T'）幾個數量級，這意味着在這個矩陣中有T-T'線性相關的列向量。

然後可以通過僅考慮T'xT'項矩陣來對該矩陣進行較低階近似。實際上，您可以採用矩陣的主特徵值，並使用旋轉和縮放將這些向量投影到這些特徵向量上（作爲新基準處理）。這正是頻譜分解或PCA（或LSA）所做的。

2015-11-11 19:18:13 Debasis

但章節中的定理18.3說Σ是奇異值分解後的M * N矩陣... – clement116

回答