我正在做一個小型的研究項目,我應該嘗試將正面和負面的類拆分財經新聞文章標題。對於分類我使用SVM方法。主要問題是我現在看到它不能爲ML生成很多功能。新聞文章包含很多命名實體和其他「垃圾」元素(從我的角度來看當然)。金融新聞標題分類到正面/負面類
能否請您提供可用於ML培訓的ML功能?當前結果爲:precision = 0.6,recall = 0.8
謝謝
我正在做一個小型的研究項目,我應該嘗試將正面和負面的類拆分財經新聞文章標題。對於分類我使用SVM方法。主要問題是我現在看到它不能爲ML生成很多功能。新聞文章包含很多命名實體和其他「垃圾」元素(從我的角度來看當然)。金融新聞標題分類到正面/負面類
能否請您提供可用於ML培訓的ML功能?當前結果爲:precision = 0.6,recall = 0.8
謝謝
這些功能如何?在詞語文章標題的
的計數如果你允許訪問實際的文章,你可以使用表面特徵fr在實際的文章中,例如文章的總篇幅,甚至是答覆的數量或反對文章的水平。你也可以在網上查看許多其他字典,例如奧格登的850基礎英語字典,看看壞的/好的文章是否可能從中提取很多單詞。我同意爲了這個目的想出很長的清單(例如100個特徵)有用的特徵似乎很困難。
這項任務根本不重要。
直接的方法是找到或創建一個訓練集。這是一組帶有正面新聞的標題和一組帶負面新聞的標題。 您將訓練集轉換爲TF/IDF表示形式,然後訓練線性SVM以分離兩個類。根據你的訓練集的質量和大小,你可以獲得一些體面的 - 不確定0.7的盈虧平衡點。
然後,爲了獲得更好的結果,你需要去NLP方法。嘗試使用詞性標註器來識別形容詞(微不足道),然後使用一些情感數據庫(如SentiWordNet)對它們進行評分。
上有Sentiment Analysis by Bo Pang and Lillian李應閱讀很好的概括:
感謝您的意見。不幸的是,在這一刻,語料庫是非常不平衡的,我正在等待這方面的改進。此外,我已經將POS功能與word的根結合使用。也使用了一個簡單的情感詞彙。 – ashingel 2012-07-18 19:36:27
iliasfl是正確的,這不是一個簡單的任務。
我會用一包字的方法,但首先使用POS標記器來標記標題中的每個單詞。然後,您可以刪除所有已命名的實體 - 正如您正確指出的那樣不會影響情緒。換句話說應該頻繁出現(如果你的數據集足夠大),可以將它們從極化中消除,無論是正向還是負向。
如果你仍然沒有接近,可以僅僅從標籤數據中選擇形容詞和動詞,因爲它們是傾向於表達情感或情緒的詞。
我不會因爲精度和召回數字而過於沮喪,但F值爲0.8或更高的實際上相當不錯。
是的。我已經將POS標籤應用於單詞並刪除了命名實體.BTW可能有意義將名稱實體替換爲「公司」,「位置」實體等值。稍後再嘗試。此外,在這一刻,我只使用形容詞,動詞和副詞作爲特徵,而忽略名詞,當它們不是情感詞時。 F現在也在0.8左右。 – ashingel 2012-07-18 19:43:20
@D Seita。謝謝您的意見。一些想法看起來很有趣。我會嘗試應用它們。 – ashingel 2012-07-18 19:44:54