所以我試圖建立鮑姆韋爾奇算法來爲練習做詞性標記。但是,我對使用隱馬爾可夫模型與馬爾科夫模型感到困惑。因爲你似乎失去了從州到州的背景。由於在移動到下一個狀態時不考慮最後狀態的輸出。只是爲了節省內存嗎?爲什麼在鮑姆韋爾奇算法中使用隱馬爾可夫模型與馬爾可夫模型
編輯:添加了一個例子,爲了清楚起見
例如,如果兩個狀態,A和B輸出0或1會有4個狀態轉換和2種obseravation可能性對於每個狀態,其可以可被製成如果您將每對傳入轉換與其狀態的迷惑概率混合,則會發生8次轉換。但是我的掛斷是爲什麼不開始訓練帶有16個轉換的四狀態{(A,1),(B,1),(A,2),(B,2)}的機器。我對nlp相當陌生,所以我想知道我是否不知道一些算法冗餘,如果沒有更難的數學就很難看出。
由於看起來人們失去了最後一個A爲1和2時轉換的信息,但我想知道訓練算法是否可能不需要這些信息。
https://en.wikipedia.org/wiki/Baum%E2%80%93Welch_algorithm
感謝您的信息。
如果原始雙態模型是四態模型的一個子集,那麼對於任何一組雙態模型參數,都有一種方法來設置四態模型的參數,使它的行爲精確像雙態模型一樣,那麼唯一的問題是,如果現實根據雙態模型行爲,那麼您將需要更多的數據來以相同的精度擬合四態模型。您可以使用交叉驗證或https://en.wikipedia.org/wiki/Likelihood-ratio_test來判斷四態模型的額外參數是否有幫助。 – mcdowella