2011-06-17 31 views
0

我有一個文集,我要詮釋的講話我在尋找一個很好的工具,我可以用做部分(動詞,名詞,形容詞等)然而,我有一個要求,我希望它使用Penn Treebank所做的相同標籤標記語料庫。原因是我想用斯坦福NLP做pos識別。NLP POS註釋工具與賓州樹庫標記

任何幫助表示讚賞,

MJ

回答

1

你有多種選擇;這裏是我的想法,從最簡單/最複雜到最複雜的順序:

1)CPAN上的任何模塊,特別是Lingua::EN::Tagger。 不知道它有多準確,但它很容易實現,但你必須喜歡Perl。

2)幾乎一樣簡單NLTK(蟒自然語言工具箱)。安裝整個軟件包需要一段時間,但編寫代碼很容易。 NLTK擁有非常強大的文檔和示例;這裏的詞性標註: http://nltk.googlecode.com/svn/trunk/doc/book/ch05.html

3)我個人傾向於使用斯坦福解析器了很多,有建於我有我的網頁斯坦福系統程序交互的示例一個不錯的POS惡搞(搜索頁面「簡易版使用內置的標記化」): https://sites.google.com/site/nicoflacco/ 你必須定製代碼有點只做標記化/標籤,而不是解析,但是這並不太難。

4)Lingpipe有點重。我相信他們包含斯坦福解析器,但我可能是錯的。

從你說的話(3)如果你想使用斯坦福解析器,而不僅僅是POS惡搞可能不壞。

+0

我想我的問題可能是誤導。我想自己手動註釋文檔。我正在尋找可以點擊某個詞並選擇適用於該詞的POS令牌。問題是我希望輸出使用penn treebank標籤。 作爲一個例子,「莎莉回家」將變成「Sally_NN went_VB home_NN」(我的標籤是錯誤的,因爲我還在學習 我認爲這是我需要培訓斯坦福POS機的標籤 –

+0

嗯,我對註釋工具沒有經驗,我可以提供的最佳建議是查看[link](http://jones.ling.indiana.edu/~mdickinson/09/615/slides/09-tools.pdf) – nflacco

1

你可能要考慮bratwebanno。這些都是基於跨度的註釋器,而不是基於標記的註釋器,但是您應該能夠雙擊單詞,然後從列表中選擇標記(如果它們配置正確)。

brat的dependency and tagging example configuration這可能是一個很好的起點,儘管您可能想借用Stanford CoreNLP配置的visual.conf中包含Penn Treebank標記着色的部分。我對webanno的配置不太熟悉,但由於它基於小孩,人們可能會以相同的方式定製它。