我最近發現了斯坦福NLP解析器,它看起來相當神奇。我目前有一個工作實例在我們的項目中運行,但面臨下面提到的2個問題。Java,Stanford NLP:從解析器中提取特定的語音標籤
- 如何可以解析文本,然後從解析的數據提取特定的語音標籤,例如,我怎樣才能從句子只提取
NNPS
和PRP
。 - 我們的平臺使用英語和德語,因此總有可能使用英語或德語。我如何適應這種情況。謝謝。
代碼:
private final String PCG_MODEL = "edu/stanford/nlp/models/lexparser/englishPCFG.ser.gz";
private final TokenizerFactory<CoreLabel> tokenizerFactory = PTBTokenizer.factory(new CoreLabelTokenFactory(), "invertible=true");
public void testParser() {
LexicalizedParser lp = LexicalizedParser.loadModel(PCG_MODEL);
String sent="Complete Howto guide to install EC2 Linux server in Amazon Web services cloud.";
Tree parse;
parse = lp.parse(sent);
List taggedWords = parse.taggedYield();
System.out.println(taggedWords);
}
上述例子的作品,但你可以看到我加載的英文資料。謝謝。
這裏指 - http://nlp.stanford.edu/software/pos-tagger-faq.shtml –
@SrikanthA:謝謝,從點24,我明白有語言錯誤的後備機制。關於第一個問題的任何想法。謝謝。 –