我一直在研究一個NLP項目,試圖定義一箇中間POS標記系統和用於遷移到我的已知POS標記系統的包裝。 我的問題是:NLP項目的想法
什麼是你見過的最好的POS標記系統。
不要談論系統,因爲你喜歡它,但由於可擴展性和描述性。
對於那些不知道POS機標記系統是什麼的人來說,POS代表詞類,標註系統專注於採集語料庫(一堆文本)並將標籤貼在單詞(名詞,動詞等)上。)
希望人們發現這個有趣的,因爲我覺得它
我一直在研究一個NLP項目,試圖定義一箇中間POS標記系統和用於遷移到我的已知POS標記系統的包裝。 我的問題是:NLP項目的想法
什麼是你見過的最好的POS標記系統。
不要談論系統,因爲你喜歡它,但由於可擴展性和描述性。
對於那些不知道POS機標記系統是什麼的人來說,POS代表詞類,標註系統專注於採集語料庫(一堆文本)並將標籤貼在單詞(名詞,動詞等)上。)
希望人們發現這個有趣的,因爲我覺得它
On this page,你會發現不同的最先進的PoS系統的比較。我個人使用Standford PoS tagger。
它是從你的問題究竟是什麼,你的「POS標籤系統」的意思不清楚。有跡象表明,似乎是混合在一起的一對夫婦的問題:
其POS標記集是很好的一個特定語言/目的
它是多麼的困難不同的標籤集之間進行轉換
如何以及特定的標記方法與特定的標記集一起工作(或人類可以如何使用該特定標記集註釋)
「中間」標記集需要對每個標記集中的所有區別進行標記,以便在標記集之間進行轉換,但大量標記可能會使標記器性能變差。然而,精心設計的大型標籤集也可能比爲人類註釋者或標籤者設計的設計不佳的標籤集更好。
你應該尋找tagset設計和tagset轉換的研究,你也可能想看看超級標籤中的工作。如果你在使用英語,你可以看看CLAWS 5和CLAWS 7,並將它們與Penn Treebank和Brown標記集進行比較(並搜索此前的工作!)。 This thesis可能是一個很好的起點。
獲取模型我將採取深入探討它。非常感謝! – 2010-10-29 12:58:07
你一定要看看James Curran和Stephen Clark開發的C&C tools。它是最快速的解析器之一(如果不是最快的),你可以找到它,它甚至是開源的!
我想提的CRF惡搞(http://sourceforge.net/projects/crftagger/),它在我的經驗是最好的。我用它在其中涉及解析語法正確的常用英語句子和短語,我的主人的項目。
OpenNLP有一個很好的POS tagger,如果你願意,你可以訓練你自己的模型。
http://opennlp.apache.org/documentation/1.5.3/manual/opennlp.html#tools.postagger
你從這裏
http://opennlp.sourceforge.net/models-1.5/
HTH
+1:與比較的鏈接非常好! – 2010-11-04 07:18:21