fasttext和LDA之間的比較

嗨上週Facebook宣佈了Fasttext，這是一種將單詞分類爲桶的方法。潛Dirichlet分配也是做話題建模的另一種方式。我的問題是有沒有人能拿內這些2.fasttext和LDA之間的比較

我還沒有試過Fasttext，但這裏有一些贊成和反對的LDA根據我的經驗

臨贊成和反對任何比較

支持Apache火花的迭代模型
獲取文檔的語料庫並進行主題建模。
不僅發現了什麼文件都在談論，但也發現了相關文件
Apache的火花社會持續到這個貢獻。早些時候，他們把它在mllib現在的工作就毫升庫

精讀

停用詞需要定義好。它們必須與文檔的上下文相關。例如：「文檔」是一個詞，它出現頻率高，可能位於推薦主題的圖表上方，但它可能會或可能沒有關係，所以我們需要更新該詞的停用詞
某些時候分類可能是無關。在下面的例子中很難推斷出這桶談論

主題：

期限：紀律
期限：學科
期限：notestable
期限：獲勝
期限：途徑
期限：chapterclosingtable
期限：元程序
期限：突破
期限：優
期限：救援

如果有人已經完成了Fasttext的研究，請您更新一下您的學習內容？

來源

2016-08-22 Nabs

fastText提供比主題建模更多的功能，它是使用淺層神經網絡生成單詞嵌入和文本分類的工具。作者稱其性能與更復雜的「深度學習」算法相當，但訓練時間明顯較短。

優點：

=>這是非常容易培養自己fastText模型，

$ ./fasttext skipgram -input data.txt -output model

只需提供您的輸入和輸出文件，要使用的架構，這一切，但如果你想定製你的模型，fastText提供了改變超參數的選項。在生成單詞向量時，fastText會考慮稱爲字符n-gram的單詞的子部分，以便相似的單詞具有相似的向量，即使它們碰巧發生在不同的上下文中也是如此。例如，「監督」，「監督」和「監督」都分配了類似的向量。

=>先前訓練過的模型可用於計算詞典外單詞的詞向量。這個是我的最愛。即使你的語料庫的詞彙量是有限的，你也可以獲得世界上幾乎任何詞彙的矢量。

=> fastText還提供了爲段落或句子生成向量的選項。通過比較文件的向量可以找到類似的文件。

=>預測一段文本的可能標籤的選項也包括在內。

=>在維基百科訓練的約90種語言的預先訓練的單詞向量可在官方回購中找到。

缺點：

=>作爲fastText是一個基於命令行，我掙扎着，同時融入到我的項目這一點，這可能不是一個問題，別人雖然。

=>沒有找到類似單詞或段落的內置方法。

對於那些誰希望瞭解更多，這裏是鏈接到官方研究論文：

1）https://arxiv.org/pdf/1607.04606.pdf

2）https://arxiv.org/pdf/1607.01759.pdf

，並鏈接到官方回購：

https://github.com/facebookresearch/fastText

來源

2017-04-21 06:18:10

fasttext和LDA之間的比較

回答

相關問題