嗨上週Facebook宣佈了Fasttext,這是一種將單詞分類爲桶的方法。潛Dirichlet分配也是做話題建模的另一種方式。我的問題是有沒有人能拿內這些2.fasttext和LDA之間的比較
我還沒有試過Fasttext,但這裏有一些贊成和反對的LDA根據我的經驗
臨贊成和反對任何比較
支持Apache火花的迭代模型
獲取文檔的語料庫並進行主題建模。
不僅發現了什麼文件都在談論,但也發現了相關文件
Apache的火花社會持續到這個貢獻。早些時候,他們把它在mllib現在的工作就毫升庫
精讀
停用詞需要定義好。它們必須與文檔的上下文相關。例如:「文檔」是一個詞,它出現頻率高,可能位於推薦主題的圖表上方,但它可能會或可能沒有關係,所以我們需要更新該詞的停用詞
某些時候分類可能是無關。在下面的例子中很難推斷出這桶談論
主題:
期限:紀律
期限:學科
期限:notestable
期限:獲勝
期限:途徑
期限:chapterclosingtable
期限:元程序
期限:突破
期限:優
期限:救援
如果有人已經完成了Fasttext的研究,請您更新一下您的學習內容?