我努力訓練樸素貝葉斯分類器從提取的情緒正/負的話。例如:百萬的句子在DB保存 - 去除不相關的英語單詞
我喜歡這部電影:))
我討厭下雨的時候:(
的想法是我提取基於使用的emoctions積極或消極的句子,但爲了訓練分類並堅持到數據庫
問題是,我有超過100萬這樣的句子,所以如果我一字一句地訓練,數據庫將去折騰我想刪除所有不相關的單詞示例「我」,「這個」,「當」,「它」,這樣的次數要我做一個數據庫查詢較少。
請幫我解決這個問題,建議我做
的更好的方法謝謝
我努力訓練樸素貝葉斯分類器從提取的情緒正/負的話。例如:百萬的句子在DB保存 - 去除不相關的英語單詞
我喜歡這部電影:))
我討厭下雨的時候:(
的想法是我提取基於使用的emoctions積極或消極的句子,但爲了訓練分類並堅持到數據庫
問題是,我有超過100萬這樣的句子,所以如果我一字一句地訓練,數據庫將去折騰我想刪除所有不相關的單詞示例「我」,「這個」,「當」,「它」,這樣的次數要我做一個數據庫查詢較少。
請幫我解決這個問題,建議我做
的更好的方法謝謝
有兩種常用的方法:
在這兩種情況下,使用諸如PMI之類的度量來確定哪些詞/ POS標籤是相關的。
提個醒:從信息檢索標準停止列表可能會或可能不會在情感分析工作。我最近讀了一篇論文(沒有參考,對不起),它聲稱!和?,通常在搜索引擎中被刪除,是情感分析的寶貴線索。 (可能會「I」,尤其當你也有一箇中立的類別。)
編輯:你也可以安全地扔掉,在訓練集(所謂hapax legomena)只發生一次的一切。一次出現的單詞對於您的分類器而言信息價值不大,但可能佔用大量空間。
+1針對情感分析的不同要求。 – 2010-11-24 11:04:36
爲了減少從數據庫中檢索數據量,您可以在數據庫中創建一個字典 - 映射字*爲數字表** - 比僅檢索培養了一批載體和完整的句子手動標記情緒。
| *沒有科學出版物在我腦海中,但也許是足夠使用的話只有stems or lemmas代替。這會減少字典的大小。
| **如果此操作殺死您的數據庫,則可以在本地應用程序中創建一個字典,該字典使用文本索引引擎(例如apache lucene)並將結果僅存儲在數據庫中。
我猜想,你的「不相關」的話,包括「我」,「這個」,「當」,「它」應該非常頻繁地出現在正和否定句。也許這可以幫助設計一種算法來自動取消某些單詞的資格,無論是當你去或作爲一個預先通過。 – aschepler 2010-11-23 17:48:58
對於短語「數據庫將去折騰」爲+1 – Stompchicken 2010-11-24 10:04:56
這是否必須是數據庫?全文搜索引擎如何?還是一個簡單的數據結構? http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Full-Text-Search-Engine-versus-DBMS – 2010-11-24 11:06:14