2016-06-10 44 views
0

有類似的評論文章分裂:句子沒有得到使用CoreNLP服務器

短裙的是我的侄女......她很喜歡它!它很相配,並會適合她的一段時間與彈性腰部....偉大的品質和非常便宜的,我會買她的另一個容易

,並把它發送到CoreNLP服務器:!

properties = { 
    "tokenize.whitespace": "true", 
    "annotators": "tokenize, ssplit, pos, lemma, ner, parse", 
    "outputFormat": "json" 
} 


if not isinstance(paragraph, str): 
    paragraph = unicodedata.normalize('NFKD', paragraph).encode('ascii', 'ignore') 

result = self.nlp.annotate(paragraph, properties=properties) 

是給我這樣的結果:

{ 
    u'sentences':[ 
     { 
     u'parse':u'SENTENCE_SKIPPED_OR_UNPARSABLE', 
     u'index':0, 
     u'tokens':[ 
      { 
       u'index':1, 
       u'word':u'The', 
       u'lemma':u'the', 
       u'pos':u'DT', 
       u'characterOffsetEnd':3, 
       u'characterOffsetBegin':0, 
       u'originalText':u'The' 
      }, 
      { 
       u'index':2, 
       u'word':u"tutu's", 
       u'lemma':u"tutu'", 
       u'pos':u'NNS', 
       u'characterOffsetEnd':10, 
       u'characterOffsetBegin':4, 
       u'originalText':u"tutu's" 
      }, 
      // ... 
      { 
       u'index':34, 
       u'word':u'easily.', 
       u'lemma':u'easily.', 
       u'pos':u'NN', 
       u'characterOffsetEnd':187, 
       u'characterOffsetBegin':180, 
       u'originalText':u'easily.' 
      } 
     ] 
     } 
    ] 
} 

我注意到,判決沒有得到分裂 - 任何想法的問題可能是什麼?

如果我使用的是http://localhost:9000 webinteface然後我看到被正確地分裂那些句子..

回答

1

不知道爲什麼,但問題似乎來自tokenize.whitespace。我剛剛評論過它:

properties = { 
    #"tokenize.whitespace": "true", 
    "annotators": "tokenize, ssplit, pos, lemma, ner, parse", 
    "outputFormat": "json" 
} 
相關問題