2014-11-20 109 views
5

我使用Stanford POS Tagger(通過Python中的NLTK)標記西班牙文本。Stanford Spanish POS Tagger的含義

這裏是我的代碼:

import nltk 
from nltk.tag.stanford import POSTagger 
spanish_postagger = POSTagger('models/spanish.tagger', 'stanford-postagger.jar') 
spanish_postagger.tag('esta es una oracion de prueba'.split()) 

結果是:

[(u'esta', u'pd000000'), 
(u'es', u'vsip000'), 
(u'una', u'di0000'), 
(u'oracion', u'nc0s000'), 
(u'de', u'sp000'), 
(u'prueba', u'nc0s000')] 

我想知道我在哪裏可以找到究竟意味着pd000000,vsip000,di0000,nc0s000,sp000?

回答

9

這是在AnCora treebank中使用的標記集的簡化版本。您可以在這裏找到他們的標記集文檔:https://web.archive.org/web/20160325024315/http://nlp.lsi.upc.edu/freeling/doc/tagsets/tagset-es.html

「簡化」包含歸零許多不嚴格屬於語音部分標記的最終字段。例如,我們的詞性標註器將始終爲您提供原始標記集的NER字段的空值(0)(請參見EAGLES noun documentation)。

簡而言之:由我們的標記器生成的POS標記中的字段完全對應於AnCora POS字段,但其中很多字段將爲空。對於大多數實際用途,您只需查看標籤的前2-4個字符即​​可。第一個字符總是表示廣泛的POS類別,第二個字符表示某種子類型。


我們在寫一些介紹性文檔使用西班牙文CoreNLP的過程(也就是了解這些標籤,和很多其他)現在。目前,您可以在我們的technical documentation的首頁找到更多信息。

+0

感謝您的回答。 – 2014-11-20 21:12:36

+0

有沒有一種方法可以使用斯坦福NLP獲取完整標籤?其實我最感興趣的是動詞的人物,數量和性別。使用Freeling POS Tagging時我能夠做到這一點,但我不知道如何使用斯坦福NLP。 – Kage 2015-04-10 07:34:54

+0

凱奇,我已經在這裏回答你的問題:http://stackoverflow.com/questions/29556109/spanish-pos-tagging-with-stanford-nlp-is-it-possible-to-get-the-person-number – 2015-04-10 13:57:18

相關問題