百萬的句子在DB保存 - 去除不相關的英語單詞

我努力訓練樸素貝葉斯分類器從提取的情緒正/負的話。例如：百萬的句子在DB保存 - 去除不相關的英語單詞

我喜歡這部電影:)）

我討厭下雨的時候:(

的想法是我提取基於使用的emoctions積極或消極的句子，但爲了訓練分類並堅持到數據庫

問題是，我有超過100萬這樣的句子，所以如果我一字一句地訓練，數據庫將去折騰我想刪除所有不相關的單詞示例「我」，「這個」，「當」，「它」，這樣的次數要我做一個數據庫查詢較少。

請幫我解決這個問題，建議我做

的更好的方法謝謝

來源

2010-11-23 daydreamer

我猜想，你的「不相關」的話，包括「我」，「這個」，「當」，「它」應該非常頻繁地出現在正和否定句。也許這可以幫助設計一種算法來自動取消某些單詞的資格，無論是當你去或作爲一個預先通過。 – aschepler 2010-11-23 17:48:58

對於短語「數據庫將去折騰」爲+1 – Stompchicken 2010-11-24 10:04:56

這是否必須是數據庫？全文搜索引擎如何？還是一個簡單的數據結構？ http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Full-Text-Search-Engine-versus-DBMS – 2010-11-24 11:06:14

你可能想看看這個 http://books.google.com/books?id=CE1QzecoVf4C&lpg=PA390&ots=OHuYwLRhag&dq=sentiment%20%20mining%20for%20fortune%20500&pg=PA379#v=onepage&q=sentiment%20%20mining%20for%20fortune%20500&f=false

來源

2010-11-30 03:55:24 Sap

有兩種常用的方法：

編譯一個stop list。
POS tag的句子和扔出去，你認爲演講的那些部分不感興趣。

在這兩種情況下，使用諸如PMI之類的度量來確定哪些詞/ POS標籤是相關的。

提個醒：從信息檢索標準停止列表可能會或可能不會在情感分析工作。我最近讀了一篇論文（沒有參考，對不起），它聲稱！和？，通常在搜索引擎中被刪除，是情感分析的寶貴線索。（可能會「I」，尤其當你也有一箇中立的類別。）

編輯：你也可以安全地扔掉，在訓練集（所謂hapax legomena）只發生一次的一切。一次出現的單詞對於您的分類器而言信息價值不大，但可能佔用大量空間。

來源

2010-11-24 10:58:03

+1針對情感分析的不同要求。 – 2010-11-24 11:04:36

爲了減少從數據庫中檢索數據量，您可以在數據庫中創建一個字典 - 映射字*爲數字表** - 比僅檢索培養了一批載體和完整的句子手動標記情緒。

| *沒有科學出版物在我腦海中，但也許是足夠使用的話只有stems or lemmas代替。這會減少字典的大小。

| **如果此操作殺死您的數據庫，則可以在本地應用程序中創建一個字典，該字典使用文本索引引擎（例如apache lucene）並將結果僅存儲在數據庫中。

來源

2010-11-24 18:28:41 Skarab

百萬的句子在DB保存 - 去除不相關的英語單詞

回答

相關問題