2016-08-22 30 views
14

嗨上週Facebook宣佈了Fasttext,這是一種將單詞分類爲桶的方法。潛Dirichlet分配也是做話題建模的另一種方式。我的問題是有沒有人能拿內這些2.fasttext和LDA之間的比較

我還沒有試過Fasttext,但這裏有一些贊成和反對的LDA根據我的經驗

臨贊成和反對任何比較

  1. 支持Apache火花的迭代模型

  2. 獲取文檔的語料庫並進行主題建模。

  3. 不僅發現了什麼文件都在談論,但也發現了相關文件

  4. Apache的火花社會持續到這個貢獻。早些時候,他們把它在mllib現在的工作就毫升庫

精讀

  1. 停用詞需要定義好。它們必須與文檔的上下文相關。例如:「文檔」是一個詞,它出現頻率高,可能位於推薦主題的圖表上方,但它可能會或可能沒有關係,所以我們需要更新該詞的停用詞

  2. 某些時候分類可能是無關。在下面的例子中很難推斷出這桶談論

主題:

  1. 期限:紀律

  2. 期限:學科

  3. 期限:notestable

  4. 期限:獲勝

  5. 期限:途徑

  6. 期限:chapterclosingtable

  7. 期限:元程序

  8. 期限:突破

  9. 期限:優

  10. 期限:救援

如果有人已經完成了Fasttext的研究,請您更新一下您的學習內容?

回答

3

fastText提供比主題建模更多的功能,它是使用淺層神經網絡生成單詞嵌入和文本分類的工具。作者稱其性能與更復雜的「深度學習」算法相當,但訓練時間明顯較短。

優點:

=>這是非常容易培養自己fastText模型,

$ ./fasttext skipgram -input data.txt -output model

只需提供您的輸入和輸出文件,要使用的架構,這一切,但如果你想定製你的模型,fastText提供了改變超參數的選項。在生成單詞向量時,fastText會考慮稱爲字符n-gram的單詞的子部分,以便相似的單詞具有相似的向量,即使它們碰巧發生在不同的上下文中也是如此。例如,「監督」,「監督」和「監督」都分配了類似的向量。

=>先前訓練過的模型可用於計算詞典外單詞的詞向量。這個是我的最愛。即使你的語料庫的詞彙量是有限的,你也可以獲得世界上幾乎任何詞彙的矢量。

=> fastText還提供了爲段落或句子生成向量的選項。通過比較文件的向量可以找到類似的文件。

=>預測一段文本的可能標籤的選項也包括在內。

=>在維基百科訓練的約90種語言的預先訓練的單詞向量可在官方回購中找到。

缺點:

=>作爲fastText是一個基於命令行,我掙扎着,同時融入到我的項目這一點,這可能不是一個問題,別人雖然。

=>沒有找到類似單詞或段落的內置方法。

對於那些誰希望瞭解更多,這裏是鏈接到官方研究論文:

1)https://arxiv.org/pdf/1607.04606.pdf

2)https://arxiv.org/pdf/1607.01759.pdf

,並鏈接到官方回購:

https://github.com/facebookresearch/fastText