2016-09-26 42 views
2

例如,如果我試圖預測句子中的下一個單詞,我可以使用bi gram方法並基於語料庫中的前一個單詞計算出現單詞的概率。Word預測:神經網絡與n-gram方法

如果我使用神經網絡來預測下一個單詞。訓練數據由字對組成,其中每對包含語料庫中的當前和下一個字。訓練網絡使用輸入值作爲單詞的矢量化表示,輸出值是語料庫中下一個單詞的矢量化表示。

我希望神經網絡表現更好,但我不知道爲什麼?

什麼時候使用神經網絡比經典方法更好?在這種情況下,一個神經網絡與一個n-gram模型。如果這個問題不明確,道歉。

也許答案是試驗和錯誤,並檢查哪個模型具有更快的性能和更好的預測?

神經網絡的性能會更好,因爲預測只是一個向量乘法,而使用n-gram模型進行預測需要進行概率計算。

+0

https://arxiv.org/abs/1606.07470或https://arxiv.org/abs/1608.04631中的內容? – alvas

回答

3

您的問題的答案取決於您具體的數據。正如你所說,n-gram模型的基礎是計算觀察每個可能的二元組的概率。這是一個非常有效的方式來利用數據,特別是當你沒有很多文本來訓練時。 N-gram模型可輕鬆擊敗小數據集上的神經網絡模型。

神經網絡有一些n-gram模型沒有的優點。假設使用循環神經網絡,他們可以利用更長的詞彙歷史。他們也可以通過類似的n-gram共享參數。