我使用斯坦福NER與3類模型來識別文件中的人員,位置和組織。它正常工作時,有一個換行分隔的名字,除了:
李四
李四
珍妮·史密斯
斯坦福NER分類器換行問題
淨入學率工具,認爲這三個名字作爲一個大的名字,而不是三個名字。如果我在每個名字後面加一個逗號,它會提取三個名字。我如何告訴工具使用換行符分隔三個名字?
我使用斯坦福NER與3類模型來識別文件中的人員,位置和組織。它正常工作時,有一個換行分隔的名字,除了:
李四
李四
珍妮·史密斯
斯坦福NER分類器換行問題
淨入學率工具,認爲這三個名字作爲一個大的名字,而不是三個名字。如果我在每個名字後面加一個逗號,它會提取三個名字。我如何告訴工具使用換行符分隔三個名字?
如果名字在相同的「句子」中以連續的標記結尾,那將會發生什麼。你可以做的主要事情是讓系統在換行符上進行標記/句子拆分,然後你將爲每個名字得到一個單獨的句子,並且事情可以正常工作。一般來說,如果你的文本被格式化爲每行一段(用現代文本通常的軟線換行),但是如果你的文本帶有強行換行符(而不是句子/段落邊界) ),因爲那時系統會錯誤地將每行作爲一個句子。命令,對於這兩種調用斯坦福NER直接和通過CoreNLP做到這一點是:
java edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators "tokenize,ssplit,pos,lemma,ner" -file taylorswift.txt -outputFormat conll -ssplit.newlineIsSentenceBreak always
java edu.stanford.nlp.ie.crf.CRFClassifier -loadClassifier edu/stanford/nlp/models/ner/english.all.3class.distsim.crf.ser.gz -textFile taylorswift.txt -tokenizerOptions tokenizeNLs=true