在例子18.4的書介紹信息檢索。術語 - 文檔矩陣使用SVD分解。我的問題是爲什麼在示例中Σ是一個5 * 5矩陣?它不應該是一個5 * 6矩陣嗎?這是錯的嗎?SVD在LSI中的書信息檢索簡介
這裏是link of the Chapter 18 of the book Introduction to Information Retrieval。謝謝!
在例子18.4的書介紹信息檢索。術語 - 文檔矩陣使用SVD分解。我的問題是爲什麼在示例中Σ是一個5 * 5矩陣?它不應該是一個5 * 6矩陣嗎?這是錯的嗎?SVD在LSI中的書信息檢索簡介
這裏是link of the Chapter 18 of the book Introduction to Information Retrieval。謝謝!
這本書是正確的。術語文檔矩陣(維度爲DxT)被分解爲三個矩陣的乘積。中間矩陣(在本書中表示爲\ Sigma)是維數爲TxT(示例中T = 5)的關鍵矩陣。
直觀上,您可以將此矩陣看作表示術語之間的關係。在最好的情況下,這個矩陣的所有列矢量應該是線性無關的,這意味着這形成了術語空間中的基矢量,並且術語之間沒有依賴關係。但是,這在實踐中並不正確。你會發現這個矩陣的秩通常比T小(比如T')幾個數量級,這意味着在這個矩陣中有T-T'線性相關的列向量。
然後可以通過僅考慮T'xT'項矩陣來對該矩陣進行較低階近似。實際上,您可以採用矩陣的主特徵值,並使用旋轉和縮放將這些向量投影到這些特徵向量上(作爲新基準處理)。這正是頻譜分解或PCA(或LSA)所做的。
但章節中的定理18.3說Σ是奇異值分解後的M * N矩陣... – clement116