2014-02-26 21 views
2

我試圖建立一個神經網絡語言模型,似乎Mikolov等人的word2vec工具是一個很好的工具。我嘗試過,但它只是產生文字表示。 有沒有人知道我可以通過該工具或任何其他合理的深度學習框架來生成語言模型?如何用word2vec工具計算語言模型?

+0

我現在使用opennlp。 – mvw

+0

現在我知道你不能用word2vec建立一個神經網絡語言模型,這要感謝Phyrox。所以我需要的是一個具有易於使用的功能的深度學習工具,用於構建語言模型。 – Ash

回答

2

Doc2Vec在Gensim中執行完成這項工作。訣竅是他們使用文檔ID作爲上下文單詞,它出現在文檔中所有單詞的所有窗口大小中。

代碼是here in Python/Gensim

2

word2vec是一個工具來表示一個單詞(一組單詞)作爲一個數字向量。所以它與語言模型沒有直接關係。

要生成語言模型,您可以使用MITLM來執行此操作。例如,你可以使用語料庫Lectures.txt使用此命令創建的N-gram模型:

estimate-ngram -text Lectures.txt -write-lm Lectures.lm 

一個偉大的教程可以發現here

+0

是的,但我的目標是堅持神經網絡語言模型,特別是那些非常接近最先進的方法,並具有易於運行的框架。 – Ash

+1

實際上,word2vec學習一個神經語言模型,然後放棄它的預測能力,同時只保留目標詞的內部表示(嵌入)。 – cvangysel

3

微軟研究院已經發布了一個用word2vec風格的矢量進行語言建模的工具包。你可以找到它here