2014-01-08 98 views
1

SVD用於LSA中獲取潛在語義信息。我對關於SVD矩陣的解釋感到困惑。奇異值分解(SVD)用於潛在語義分析(LSA)生成矩陣的意義/意義

我們首先構建一個文檔項矩陣。然後使用SVD將其分解成3個矩陣。

例如:

的DOC-術語矩陣M1爲M×N,其中:

M = the number of documents 
N = the number of terms 

和M1被分解爲:

M1 = M2 * M3 * M4, where: 

M2: M x k 

M3: k x k 

M4: k x N 

我看到的解釋象下面:

M2座的k s類似的類別語義。 M4的k 代表主題

我的問題是:

  1. 爲什麼爲k解釋像上面?我們如何知道它是類似的語義和主題?

  2. 爲什麼類似的語義等於話題?

  3. 爲什麼k的M2和M4

  4. 之間不同的解釋如何解讀M3?

我真的很困惑。看來這個解釋完全是任意的。那潛在的意思是?

+3

如果'SVD'顯得過於武斷,請嘗試使用'PCA'代替。它們實際上是等價的,但'PCA'更容易說服自己,並且可以幫助解釋「SVD'解釋背後的許多原因。 「SVD」的完整解釋應該是數學交換,或者構成大部分線性代數課程。 –

+1

我想這個問題是關於爲什麼k顯然在不同的矩陣中有一個類似的聲音 - 但是不同的名字的解釋。它真的嗎? –

+0

@ HeatherStark是的,這也應該是我的擔憂之一。感謝您指出。我更新了這個問題。 – smwikipedia

回答

1

我熱烈推薦閱讀曼寧和舒茨的SNLP聖經中的信息檢索章節。 在5頁中,它解釋了關於LSI和SVD的所有知識。

你會發現段落是這樣的:

enter image description here

+0

感謝您閱讀本書的建議。我以前沒有讀過它。我會讀它。 – smwikipedia