從自己的文本數據使用NLTK的情緒分類

我會問的聽起來可能聽起來非常類似於帖子Sentiment analysis with NLTK python for sentences using sample data or webservice?，但我完成了從文本解析和標記句子。我的問題是從自己的文本數據使用NLTK的情緒分類

無論例子到現在我在NLTK電影評論例子已經看到似乎是最類似於我的問題，但對於movie_review訓練文本已經是一種形式，因爲它有兩個文件夾的POS和NEG和文本存儲在那裏。我如何爲我的巨大文本做這種分類，手動讀取數據並將它們存儲到兩個文件夾中。這是否構成語料庫？之後，我可以像在movie_review數據中一樣使用它們嗎？

2.如果對上述問題的回答是肯定的，有沒有辦法通過任何工具來加速該任務。例如，我只想處理那裏有「Monty Python」文本的文本。然後我手動對它們進行分類，然後將它們存儲在pos和neg文件夾中。那樣有用嗎？

請幫我

來源

2012-05-19 Hirak Sarkar

是的，你需要訓練語料庫訓練分類。或者你需要一些其他方式來檢測情緒。

要創建一個訓練語料庫，您可以手動進行分類，您可以讓其他人爲您分類（機械特克很受歡迎），或者您可以做corpus bootstrapping。對於情緒而言，這可能涉及創建2個關鍵詞列表，積極詞彙和否定詞彙。使用這些，你可以創建一個初始訓練語料庫，手工校正，然後訓練一個分類器。這是一個反覆的過程，要記住的關鍵是「垃圾進入，垃圾出來」。換句話說，如果你的訓練語料庫是錯誤的，你不能指望你的分類器是正確的。

來源

2012-05-20 23:52:55 Jacob

創建兩個關鍵字列表意味着我必須爲正負關鍵字保存兩個列表？但我想標記正面或負面的文檔。那可能嗎？ –

帶有2個關鍵字列表的想法是，您可以使用這些來自動標記文檔，而不是手動進行 – Jacob

從自己的文本數據使用NLTK的情緒分類

回答

相關問題