2014-04-04 73 views
0

我正在嘗試使用vowpal wabbit lda模型。但是我的結果非常糟糕。我認爲我正在做的這個過程出了問題。我有100000使用lda for vowpal wabbit的問題

這個詞彙量餘像這樣運行

VW --data train.txt --lda 50 --lda_alpha 0.1 --lda_rho 0.1 --lda_D 262726個-b 20個-pions代碼.dat --readable_model wordtopics.dat

現在我期待wordtopics.dat文件包含這些100000字的主題比例,但看起來這個詞topics.dat文件非常龐大,包含像1048587行。

我認爲這是因爲b = 20,最後的線條就像有一致的概率分佈。

但是,當我看到所獲得的主題時,他們根本沒有意義。所以我覺得有什麼不對。有什麼可能會出錯的傢伙?

回答

0

沒有回答你的問題,但哥倫比亞大學應用數據科學的傢伙已經讓helper與大衆的LDA合作,特別是在查看結果時。

也嘗試使用--passes選項,所以VW結果可能比一些培訓更好。

相關問題