2012-10-06 128 views
4

我一直在玩NLTK一段時間了,現在我正在爲定義特殊分塊的定製解析器語法。我正在按照http://nltk.googlecode.com/svn/trunk/doc/book/ch07.html中的說明進行操作,但我有興趣做的操作與本章中描述的略有不同。例如例如在7.10,而不是使用動詞階段如下: VP:{< VB * > < NP | PP | CLAUSE > + $} 我想只匹配使用一個特定動詞的句子,而不是任何動詞。 VP:喜歡的東西{去< NP | PP | CLAUSE > + $}在NLTK解析器語法中混合單詞和PoS標籤

換句話說,我想匹配的單詞實際的單詞而不是詞類標記和混搭實際詞和POS標籤在正則表達式中。

這可能嗎?

+1

也許您可以預處理語料庫以將'go'的語音標籤從'VB'更改爲'GO',然後使用標準設置向上? – dmh

回答

1

不符合由nltk pos-tagger生成的標準PoS標籤。

如果你需要爲不同的動詞做文法,一個有用的黑客可能是預處理標籤並將標記附加到所有動詞的標籤。因此,您可以使用看起來像VP的正則表達式字符串:{+ $}