2012-07-17 24 views
2

我正在做一個小型的研究項目,我應該嘗試將正面和負面的類拆分財經新聞文章標題。對於分類我使用SVM方法。主要問題是我現在看到它不能爲ML生成很多功能。新聞文章包含很多命名實體和其他「垃圾」元素(從我的角度來看當然)。金融新聞標題分類到正面/負面類

能否請您提供可用於ML培訓的ML功能?當前結果爲:precision = 0.6,recall = 0.8

謝謝

回答

1

這些功能如何?在詞語文章標題的

  1. 長度
  2. 平均字長
  3. 在「壞」的話,例如字典中的單詞數字典= {可怕,可怕,低迷,破產......}。你可能必須自己生成這本字典。
  4. 該字典中的單詞與句子中的總單詞的比率
  5. 類似於3,但是在「良好」單詞詞典中的單詞數量,例如,字典= {福音,蓬勃發展,就業,...}
  6. 類似5,而是用「好」 -word字典
  7. 文章的發表時間
  8. 日期文章的發表
  9. 介質通過它的發佈時間(你必須做一些主觀分類)
  10. 某些標點符號,如感嘆號

的計數如果你允許訪問實際的文章,你可以使用表面特徵fr在實際的文章中,例如文章的總篇幅,甚至是答覆的數量或反對文章的水平。你也可以在網上查看許多其他字典,例如奧格登的850基礎英語字典,看看壞的/好的文章是否可能從中提取很多單詞。我同意爲了這個目的想出很長的清單(例如100個特徵)有用的特徵似乎很困難。

+0

@D Seita。謝謝您的意見。一些想法看起來很有趣。我會嘗試應用它們。 – ashingel 2012-07-18 19:44:54

2

這項任務根本不重要。

直接的方法是找到或創建一個訓練集。這是一組帶有正面新聞的標題和一組帶負面新聞的標題。 您將訓練集轉換爲TF/IDF表示形式,然後訓練線性SVM以分離兩個類。根據你的訓練集的質量和大小,你可以獲得一些體面的 - 不確定0.7的盈虧平衡點。

然後,爲了獲得更好的結果,你需要去NLP方法。嘗試使用詞性標註器來識別形容詞(微不足道),然後使用一些情感數據庫(如SentiWordNet)對它們進行評分。

上有Sentiment Analysis by Bo Pang and Lillian李應閱讀很好的概括:

+0

感謝您的意見。不幸的是,在這一刻,語料庫是非常不平衡的,我正在等待這方面的改進。此外,我已經將POS功能與word的根結合使用。也使用了一個簡單的情感詞彙。 – ashingel 2012-07-18 19:36:27

0

iliasfl是正確的,這不是一個簡單的任務。

我會用一包字的方法,但首先使用POS標記器來標記標題中的每個單詞。然後,您可以刪除所有已命名的實體 - 正如您正確指出的那樣不會影響情緒。換句話說應該頻繁出現(如果你的數據集足夠大),可以將它們從極化中消除,無論是正向還是負向。

如果你仍然沒有接近,可以僅僅從標籤數據中選擇形容詞和動詞,因爲它們是傾向於表達情感或情緒的詞。

我不會因爲精度和召回數字而過於沮喪,但F值爲0.8或更高的實際上相當不錯。

+0

是的。我已經將POS標籤應用於單詞並刪除了命名實體.BTW可能有意義將名稱實體替換爲「公司」,「位置」實體等值。稍後再嘗試。此外,在這一刻,我只使用形容詞,動詞和副詞作爲特徵,而忽略名詞,當它們不是情感詞時。 F現在也在0.8左右。 – ashingel 2012-07-18 19:43:20