2010-11-23 16 views
6

我努力訓練樸素貝葉斯分類器從提取的情緒正/負的話。例如:百萬的句子在DB保存 - 去除不相關的英語單詞

我喜歡這部電影:))

我討厭下雨的時候:(

的想法是我提取基於使用的emoctions積極或消極的句子,但爲了訓練分類並堅持到數據庫

問題是,我有超過100萬這樣的句子,所以如果我一字一句地訓練,數據庫將去折騰我想刪除所有不相關的單詞示例「我」,「這個」,「當」,「它」,這樣的次數要我做一個數據庫查詢較少。

請幫我解決這個問題,建議我做

的更好的方法謝謝

+0

我猜想,你的「不相關」的話,包括「我」,「這個」,「當」,「它」應該非常頻繁地出現在正和否定句。也許這可以幫助設計一種算法來自動取消某些單詞的資格,無論是當你去或作爲一個預先通過。 – aschepler 2010-11-23 17:48:58

+1

對於短語「數據庫將去折騰」爲+1 – Stompchicken 2010-11-24 10:04:56

+0

這是否必須是數據庫?全文搜索引擎如何?還是一個簡單的數據結構? http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Full-Text-Search-Engine-versus-DBMS – 2010-11-24 11:06:14

回答

8

有兩種常用的方法:

  1. 編譯一個stop list
  2. POS tag的句子和扔出去,你認爲演講的那些部分不感興趣。

在這兩種情況下,使用諸如PMI之類的度量來確定哪些詞/ POS標籤是相關的。

提個醒:從信息檢索標準停止列表可能會或可能不會在情感分析工作。我最近讀了一篇論文(沒有參考,對不起),它聲稱!和?,通常在搜索引擎中被刪除,是情感分析的寶貴線索。 (可能會「I」,尤其當你也有一箇中立的類別。)

編輯:你也可以安全地扔掉,在訓練集(所謂hapax legomena)只發生一次的一切。一次出現的單詞對於您的分類器而言信息價值不大,但可能佔用大量空間。

+1

+1針對情感分析的不同要求。 – 2010-11-24 11:04:36

0

爲了減少從數據庫中檢索數據量,您可以在數據庫中創建一個字典 - 映射字*爲數字表** - 比僅檢索培養了一批載體和完整的句子手動標記情緒。

| *沒有科學出版物在我腦海中,但也許是足夠使用的話只有stems or lemmas代替。這會減少字典的大小。

| **如果此操作殺死您的數據庫,則可以在本地應用程序中創建一個字典,該字典使用文本索引引擎(例如apache lucene)並將結果僅存儲在數據庫中。