2015-04-07 29 views
1

我正在尋找工具來查找文檔語料庫中的部分語音模式。我正在使用斯坦福NLP工具來標記我的文檔。現在我想查詢這些標記的文檔並找到了一些具體的POS模式,例如我可以使用什麼工具來查找部分語音模式

NPJJ(例如:電影是好的)

JJNP(例如:優質鵝肝醬)

有沒有一種工具可以以簡單高效的方式爲我做到這一點,還是我需要寫我自己的?考慮

+0

爲什麼downvote ??? – azpublic

+0

投票!非常有用的問題! – Maziyar

回答

2

斯坦福CoreNLP,你也可以使用TokensRegex在標記列表匹配模式:http://nlp.stanford.edu/software/tokensregex.shtml

例如,你的兩個圖案會類似:

[{標籤:NN}] [{字:是}] [{代碼:JJ}]

[{標籤:JJ}] [{代碼:NN}]

(注意,但NP不是POS標籤。實際上,你想要的是[{tag:/ N。* /}]和[{lemma:be}]來捕捉更廣泛的案例)。

+0

優秀。我在同一時間看到TokensRegex回答。我認爲NP是NounPhrase,但確實..它不存在:)謝謝你的澄清,謝謝你的引理技巧!馬上測試。 – azpublic

+0

應該在你的答案中'標記'是'pos'嗎?我在看這篇文章http://nlp.stanford.edu/pubs/tokensregex-tr-2014.pdf,他們提到pos:「NNP」 - >令牌POS也是abc – azpublic

+0

也是一個側面問題,我將如何捕獲名詞短語與我捕捉名詞(NN)的方式相同。例如,「番茄沙拉很棒」,我怎樣才能捕捉到「番茄沙拉」+「有」+「美妙」,而不僅僅是「沙拉」+「有」+「美妙」?非常感謝 ! – azpublic

1

一個工具是科珀斯克裏工作臺:http://cwb.sourceforge.net/

+0

謝謝,這個工具看起來不錯,但是你知道我是否可以使用stanford POS註釋(我認爲它是Penn Treebank)。我已經註釋了語料庫,理想情況下,我想直接查詢此註釋的語料庫,而不生成一組新的註釋。你知道這個工具是否會讓我這樣做嗎? – azpublic

+0

不,我認爲你必須將註釋轉換爲不同的格式,所以Gabor的答案中的斯坦福工具聽起來更好。 – aab

相關問題