0
我已經爲我想要計算最大似然估計值的測試語料庫構建了三元模型。計算各種ngram的最大似然估計值
假設我們有以下文字:
text = "The white fox, The white fox, the black fox."
它的卦爲:
要做到這一點,我將不得不計算讓我們說「白」的所有事件,然後所有出現以'狐狸'結尾的卦,其次是'白','黑'等等。
有沒有更好的做法是除了遍歷所有的trigrams,分裂他們和閱讀他們的內容,看看他們是我需要的當前迭代?
我知道nltk,但這是爲了學習的目的,我寧願看看它是如何完成自己。
使用KenLM或SRILM。 – user3639557