2014-11-23 38 views
0

對於潛在迪裏克萊特分配,因爲它假設一個固定的詞彙包(我用tf-idf方法獲得),我們如何處理不在詞袋中的詞,說那些停用詞?潛在迪裏克萊特分配如何處理詞彙不在詞彙表

我們是否仍然認爲這些詞在文檔中佔據了一個位置(換句話說,我們是否應該爲這些詞指定主題)還是忽略這些詞?

謝謝!

回答

0

我假設出現這個問題的原因是您的訓練LDA獲取主題向量的語料庫沒有您在測試文檔中找到的詞語(稍後爲實現其主題分解而帶入實驗)。如果是這種情況,那麼如果你的語料庫有大量的單詞,忽略新單詞就沒有問題,例如如果它是一個英文語料庫,那麼一個10萬字以上的詞彙量就足夠大了。另一方面,如果上述情況並非如此,並且這些新詞將會區分一個文檔與另一個文檔,那麼建議您最好通過將這些詞包含在訓練集中來運行LDA。