我正在尋找工具來查找文檔語料庫中的部分語音模式。我正在使用斯坦福NLP工具來標記我的文檔。現在我想查詢這些標記的文檔並找到了一些具體的POS模式,例如我可以使用什麼工具來查找部分語音模式
NP是JJ(例如:電影是好的)
或JJNP(例如:優質鵝肝醬)
有沒有一種工具可以以簡單高效的方式爲我做到這一點,還是我需要寫我自己的?考慮
我正在尋找工具來查找文檔語料庫中的部分語音模式。我正在使用斯坦福NLP工具來標記我的文檔。現在我想查詢這些標記的文檔並找到了一些具體的POS模式,例如我可以使用什麼工具來查找部分語音模式
NP是JJ(例如:電影是好的)
或JJNP(例如:優質鵝肝醬)
有沒有一種工具可以以簡單高效的方式爲我做到這一點,還是我需要寫我自己的?考慮
斯坦福CoreNLP,你也可以使用TokensRegex在標記列表匹配模式:http://nlp.stanford.edu/software/tokensregex.shtml
例如,你的兩個圖案會類似:
[{標籤:NN}] [{字:是}] [{代碼:JJ}]
[{標籤:JJ}] [{代碼:NN}]
(注意,但NP不是POS標籤。實際上,你想要的是[{tag:/ N。* /}]和[{lemma:be}]來捕捉更廣泛的案例)。
優秀。我在同一時間看到TokensRegex回答。我認爲NP是NounPhrase,但確實..它不存在:)謝謝你的澄清,謝謝你的引理技巧!馬上測試。 – azpublic
應該在你的答案中'標記'是'pos'嗎?我在看這篇文章http://nlp.stanford.edu/pubs/tokensregex-tr-2014.pdf,他們提到pos:「NNP」 - >令牌POS也是abc – azpublic
也是一個側面問題,我將如何捕獲名詞短語與我捕捉名詞(NN)的方式相同。例如,「番茄沙拉很棒」,我怎樣才能捕捉到「番茄沙拉」+「有」+「美妙」,而不僅僅是「沙拉」+「有」+「美妙」?非常感謝 ! – azpublic
一個工具是科珀斯克裏工作臺:http://cwb.sourceforge.net/
爲什麼downvote ??? – azpublic
投票!非常有用的問題! – Maziyar