Stanford Spanish POS Tagger的含義

我使用Stanford POS Tagger（通過Python中的NLTK）標記西班牙文本。Stanford Spanish POS Tagger的含義

這裏是我的代碼：

import nltk 
from nltk.tag.stanford import POSTagger 
spanish_postagger = POSTagger('models/spanish.tagger', 'stanford-postagger.jar') 
spanish_postagger.tag('esta es una oracion de prueba'.split())

結果是：

[(u'esta', u'pd000000'), 
(u'es', u'vsip000'), 
(u'una', u'di0000'), 
(u'oracion', u'nc0s000'), 
(u'de', u'sp000'), 
(u'prueba', u'nc0s000')]

我想知道我在哪裏可以找到究竟意味着pd000000，vsip000，di0000，nc0s000，sp000？

來源

2014-11-20 Pedro Muñoz

這是在AnCora treebank中使用的標記集的簡化版本。您可以在這裏找到他們的標記集文檔：https://web.archive.org/web/20160325024315/http://nlp.lsi.upc.edu/freeling/doc/tagsets/tagset-es.html

「簡化」包含歸零許多不嚴格屬於語音部分標記的最終字段。例如，我們的詞性標註器將始終爲您提供原始標記集的NER字段的空值（0）（請參見EAGLES noun documentation）。

簡而言之：由我們的標記器生成的POS標記中的字段完全對應於AnCora POS字段，但其中很多字段將爲空。對於大多數實際用途，您只需查看標籤的前2-4個字符即可。第一個字符總是表示廣泛的POS類別，第二個字符表示某種子類型。

我們在寫一些介紹性文檔使用西班牙文CoreNLP的過程（也就是了解這些標籤，和很多其他）現在。目前，您可以在我們的technical documentation的首頁找到更多信息。

來源

2014-11-20 20:52:35

感謝您的回答。 – 2014-11-20 21:12:36

有沒有一種方法可以使用斯坦福NLP獲取完整標籤？其實我最感興趣的是動詞的人物，數量和性別。使用Freeling POS Tagging時我能夠做到這一點，但我不知道如何使用斯坦福NLP。 – Kage 2015-04-10 07:34:54

凱奇，我已經在這裏回答你的問題：http://stackoverflow.com/questions/29556109/spanish-pos-tagging-with-stanford-nlp-is-it-possible-to-get-the-person-number – 2015-04-10 13:57:18

Stanford Spanish POS Tagger的含義

回答

相關問題