我正在研究一個項目,我需要使用維特比算法在句子列表上進行詞性標註。對於我的訓練數據,我有一些已經用單詞標記的句子,我假定我需要解析並存儲在某個數據結構中。然後我有一個測試數據,其中還包含每個單詞被標記的句子。使用維特比算法標記詞類的部分
我對如何解決這個問題有點困惑。我想這個問題的部分原因是我不認爲我完全理解維特比算法的觀點。我是否應該使用維特比算法來標記測試數據並將結果與實際數據進行比較?哪些數據結構最適合這樣做並代表一個句子?
任何幫助將不勝感激。
我正在研究一個項目,我需要使用維特比算法在句子列表上進行詞性標註。對於我的訓練數據,我有一些已經用單詞標記的句子,我假定我需要解析並存儲在某個數據結構中。然後我有一個測試數據,其中還包含每個單詞被標記的句子。使用維特比算法標記詞類的部分
我對如何解決這個問題有點困惑。我想這個問題的部分原因是我不認爲我完全理解維特比算法的觀點。我是否應該使用維特比算法來標記測試數據並將結果與實際數據進行比較?哪些數據結構最適合這樣做並代表一個句子?
任何幫助將不勝感激。
你應該檢查:http://www.youtube.com/watch?v=sCO2riwPUTA ...和所有後續的視頻。 我發現瞭解維特比算法非常有用。
維特比算法不會標記您的數據。您應該手動(或通過最先進的解析器半自動)標記數據進行培訓。
Viterbi用於計算節點的最佳路徑,並找到負向對數概率最低的每個節點的路徑。
Python實現HMM(維特比)POS標註器的:https://github.com/zachguo/HMM-Trigram-Tagger/blob/master/HMM.py
爲什麼downvote?!? ! – Aaron
功課標籤... http://stackoverflow.com/questions/9729968/python-implementation-of-viterbi-algorithm – alvas