2014-02-27 25 views
1

我正在研究一個項目,我需要使用維特比算法在句子列表上進行詞性標註。對於我的訓練數據,我有一些已經用單詞標記的句子,我假定我需要解析並存儲在某個數據結構中。然後我有一個測試數據,其中還包含每個單詞被標記的句子。使用維特比算法標記詞類的部分

我對如何解決這個問題有點困惑。我想這個問題的部分原因是我不認爲我完全理解維特比算法的觀點。我是否應該使用維特比算法來標記測試數據並將結果與​​實際數據進行比較?哪些數據結構最適合這樣做並代表一個句子?

任何幫助將不勝感激。

+0

功課標籤... http://stackoverflow.com/questions/9729968/python-implementation-of-viterbi-algorithm – alvas

回答

-1

維特比算法不會標記您的數據。您應該手動(或通過最先進的解析器半自動)標記數據進行培訓。

Viterbi用於計算節點的最佳路徑,並找到負向對數概率最低的每個節點的路徑。

Python實現HMM(維特比)POS標註器的:https://github.com/zachguo/HMM-Trigram-Tagger/blob/master/HMM.py

+0

爲什麼downvote?!? ! – Aaron