斯坦福NER分類器換行問題

我使用斯坦福NER與3類模型來識別文件中的人員，位置和組織。它正常工作時，有一個換行分隔的名字，除了：
李四
李四
珍妮·史密斯
斯坦福NER分類器換行問題

淨入學率工具，認爲這三個名字作爲一個大的名字，而不是三個名字。如果我在每個名字後面加一個逗號，它會提取三個名字。我如何告訴工具使用換行符分隔三個名字？

2016-04-29 RVT

如果名字在相同的「句子」中以連續的標記結尾，那將會發生什麼。你可以做的主要事情是讓系統在換行符上進行標記/句子拆分，然後你將爲每個名字得到一個單獨的句子，並且事情可以正常工作。一般來說，如果你的文本被格式化爲每行一段（用現代文本通常的軟線換行），但是如果你的文本帶有強行換行符（而不是句子/段落邊界）），因爲那時系統會錯誤地將每行作爲一個句子。命令，對於這兩種調用斯坦福NER直接和通過CoreNLP做到這一點是：

java edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators "tokenize,ssplit,pos,lemma,ner" -file taylorswift.txt -outputFormat conll -ssplit.newlineIsSentenceBreak always

java edu.stanford.nlp.ie.crf.CRFClassifier -loadClassifier edu/stanford/nlp/models/ner/english.all.3class.distsim.crf.ser.gz -textFile taylorswift.txt -tokenizerOptions tokenizeNLs=true

來源

2016-05-01 01:33:47

斯坦福NER分類器換行問題

回答

相關問題