2013-10-21 31 views
4

我正在使用斯坦福標記確定詞類。但是,我想從文本中獲得更多信息。是否有可能獲得進一步的信息,如句子的時態或主動/被動?從標記器獲取附加信息(主動/被動,時態...)

到目前爲止,我使用的是非常基本的POS-標記方法:

List<List<TaggedWord>> taggedUnits = new ArrayList<List<TaggedWord>>(); 

String input = "This sentence is going to be future. The door was opened."; 
for (List<HasWord> sentence : MaxentTagger.tokenizeText(new StringReader(input))) 
{ 
    taggedUnits.add(tagger.tagSentence(sentence)); 
} 

回答

12

您可以從各種佩恩標籤獲得的信息時態:

27. VB Verb, base form 
28. VBD Verb, past tense 
29. VBG Verb, gerund or present participle 
30. VBN Verb, past participle 
31. VBP Verb, non-3rd person singular present 
32. VBZ Verb, 3rd person singular present 

關於主動/被動局面,您可以使用Stanford Core NLP中包含的類型化依賴項。

  1. 如果句子處於主動語態,應該存在'nsubj'依賴關係。
  2. 如果這句話是被動語態一個「nsubjpass」的依賴應該 存在

希望這有助於。

+0

非常感謝您的幫助!然而,當我使用德語進行「主動/被動檢測」時,我被卡住了 - > http://stackoverflow.com/questions/19531208/how-to-use-stanford-corenlp-with-a-non-english-parse-model –

+0

一直在閱讀關於此的文檔,並且此nsubjpass關係似乎是所有被動語句的特徵 - http://nlp.stanford.edu/nlp/javadoc/javanlp/edu/stanford/nlp/trees/EnglishGrammaticalRelations.html# NOMINAL_PASSIVE_SUBJECT – JasTonAChair