2011-11-24 36 views
0

我正在處理不幸在全部大寫中給出的文本。默認的nltk.pos_tag函數在這個文本上做得不是很好(它認爲所有東西都是專有名詞)。pos_tag在全部大寫的文本上失敗

解決此問題的最佳方法是什麼?

回答

2

最好的做法是在POS標記之前將truecasing應用於您的文本。

如果這是你太多efford,你可以改變你的Python字符串x降低使用x.lower()字符,至少應該避免只獲得專有名詞標籤的問題(可能會有一些困惑與過少專有名詞標籤雖然)。

您可以通過將標記語料庫先前轉換爲lower來培訓POS標記語,但如果您想獲得最佳結果,則可能需要進行正確分類。

+0

在轉換爲小寫的語料庫上培訓新的標記器效果稍好一些,但仍然沒有給出我想要的結果。到底什麼似乎起作用(我沒有嚴格測試過)是在培訓一個標記器,將單詞標記爲小寫字母,大寫字母或大寫字母。 – Bradley