在Java中設置Stanford NLP解析器的選項

我正在嘗試使用Stanford NLP解析器來解析POS標記的數據。由於我的數據已經被標記和符號化，我試圖用setOptionFlags()方法告知解析器這個樣，在Java中設置Stanford NLP解析器的選項

LexicalizedParser lp = LexicalizedParser.loadModel("edu/stanford/nlp/models/lexparser/englishPCFG.ser.gz"); 
lp.setOptionFlags(new String[]{"-sentences", "newline", "-tokenized", "-tagSeparator", "_", "-tokenizerFactory", "edu.stanford.nlp.process.WhitespaceTokenizer", "-tokenizerMethod", "newCoreLabelTokenizerFactory"});

不過，我不斷收到一個例外，

Exception in thread "main" java.lang.IllegalArgumentException: Unknown option: -sentences

我在網上搜索通過提供的Javadocs，這是它們在他們的例子中完成的方式。請幫忙！

來源

2013-10-22 Soul Slayer

標記化，標記分隔符等選項不是用於解析器的選項，而是用於在LexicalizedParser的主方法中爲解析器構建輸入的DocumentPreprocessor選項。對於實際的解析器，輸入是一個令牌列表，並且這些被解析。因此，您不能將這些選項作爲解析器選項與setOptions()。

如果你有一個令牌列表，你可以用LexicalizedParser：public Tree parse(List<? extends HasWord> lst)這個方法將它們直接放到解析器中。如果列表中的項目執行HasTag（例如，TaggedWord或CoreLabel）並且具有非空標記，則解析器將在分析該句子時使用該標記。

如果你想使用DocumentPreprocessor文本拆分與符號化標籤的話，那麼你需要創建一個DocumentPreprocessor，然後用像setTagDelimiter(String s)方法設置好了（有點手動，抱歉）。

來源

2013-10-23 00:18:46

在Java中設置Stanford NLP解析器的選項

回答

相關問題