潛在迪裏克萊特分配如何處理詞彙不在詞彙表

對於潛在迪裏克萊特分配，因爲它假設一個固定的詞彙包（我用tf-idf方法獲得），我們如何處理不在詞袋中的詞，說那些停用詞？潛在迪裏克萊特分配如何處理詞彙不在詞彙表

我們是否仍然認爲這些詞在文檔中佔據了一個位置（換句話說，我們是否應該爲這些詞指定主題）還是忽略這些詞？

謝謝！

2014-11-23 Junting Zhu

我假設出現這個問題的原因是您的訓練LDA獲取主題向量的語料庫沒有您在測試文檔中找到的詞語（稍後爲實現其主題分解而帶入實驗）。如果是這種情況，那麼如果你的語料庫有大量的單詞，忽略新單詞就沒有問題，例如如果它是一個英文語料庫，那麼一個10萬字以上的詞彙量就足夠大了。另一方面，如果上述情況並非如此，並且這些新詞將會區分一個文檔與另一個文檔，那麼建議您最好通過將這些詞包含在訓練集中來運行LDA。

來源

2014-11-23 05:28:13

潛在迪裏克萊特分配如何處理詞彙不在詞彙表

回答

相關問題