0
我可能在POS標記器中發現了一個錯誤。無論我在「normalizeParentheses = True」還是False中使用「-tokenizerOptions」標誌,標記結果都會發生變化。我是從使用Python中的服務器通過設置訪問惡搞:在斯坦福NLP POS標記器中,設置normalizeParenthese = True會更改POS結果
pos_args=['java', '-mx400m', '-cp', homedir+'/models/stanfordpostagger.jar','edu.stanford.nlp.tagger.maxent.MaxentTaggerServer','-model','english-bidirectional-distsim.tagger','-port','2021','-loadClassifier',english.all.3class.distsim.crf.ser.gz','-tokenizerOptions','normalizeParentheses=true']
POS=Popen(pos_args)
我用的是包實際做的標記。
如果我標記句子 「(鮑勃是好的)」 與normalizeParentheses =真,我得到:
[(u'-LRB-', u'-LRB-'),
(u'Bob', u'NNP'),
(u'is', u'VBZ'),
(u'nice', u'JJ'),
(u'-RRB-', u'-RRB-')]
但是,如果使用normalizeParentheses =假,我得到:
[(u'(', u'NNP'),
(u'Bob', u'NNP'),
(u'is', u'VBZ'),
(u'nice', u'JJ'),
(u')', u'NN')]
和這個版本的標註器也會將許多單詞標記爲外來的('FW')。
我嘗試過很多其他的選擇,只有這一個和normalizeOtherBrackets = False似乎會導致這種行爲。這就好像這兩個選項會導致使用完全不同的標記方法。我很好奇,如果這確實是一個錯誤,或者有一個聰明的解決方法?