2012-05-19 96 views
1

我會問的聽起來可能聽起來非常類似於帖子Sentiment analysis with NLTK python for sentences using sample data or webservice?,但我完成了從文本解析和標記句子。我的問題是從自己的文本數據使用NLTK的情緒分類

  1. 無論例子到現在我在NLTK電影評論例子已經看到似乎是最類似於我的問題,但對於movie_review訓練文本已經是一種形式,因爲它有兩個文件夾的POS和NEG和文本存儲在那裏。我如何爲我的巨大文本做這種分類,手動讀取數據並將它們存儲到兩個文件夾中。這是否構成語料庫?之後,我可以像在movie_review數據中一樣使用它們嗎?

2.如果對上述問題的回答是肯定的,有沒有辦法通過任何工具來加速該任務。例如,我只想處理那裏有「Monty Python」文本的文本。然後我手動對它們進行分類,然後將它們存儲在pos和neg文件夾中。那樣有用嗎?

請幫我

回答

3

是的,你需要訓練語料庫訓練分類。或者你需要一些其他方式來檢測情緒。

要創建一個訓練語料庫,您可以手動進行分類,您可以讓其他人爲您分類(機械特克很受歡迎),或者您可以做corpus bootstrapping。對於情緒而言,這可能涉及創建2個關鍵詞列表,積極詞彙和否定詞彙。使用這些,你可以創建一個初始訓練語料庫,手工校正,然後訓練一個分類器。這是一個反覆的過程,要記住的關鍵是「垃圾進入,垃​​圾出來」。換句話說,如果你的訓練語料庫是錯誤的,你不能指望你的分類器是正確的。

+0

創建兩個關鍵字列表意味着我必須爲正負關鍵字保存兩個列表?但我想標記正面或負面的文檔。那可能嗎? –

+0

帶有2個關鍵字列表的想法是,您可以使用這些來自動標記文檔,而不是手動進行 – Jacob