金融新聞標題分類到正面/負面類

我正在做一個小型的研究項目，我應該嘗試將正面和負面的類拆分財經新聞文章標題。對於分類我使用SVM方法。主要問題是我現在看到它不能爲ML生成很多功能。新聞文章包含很多命名實體和其他「垃圾」元素（從我的角度來看當然）。金融新聞標題分類到正面/負面類

能否請您提供可用於ML培訓的ML功能？當前結果爲：precision = 0.6，recall = 0.8

謝謝

來源

2012-07-17 ashingel

這些功能如何？在詞語文章標題的

長度
平均字長
在「壞」的話，例如字典中的單詞數字典= {可怕，可怕，低迷，破產......}。你可能必須自己生成這本字典。
該字典中的單詞與句子中的總單詞的比率
類似於3，但是在「良好」單詞詞典中的單詞數量，例如，字典= {福音，蓬勃發展，就業，...}
類似5，而是用「好」 -word字典
文章的發表時間
日期文章的發表
介質通過它的發佈時間（你必須做一些主觀分類）
某些標點符號，如感嘆號

的計數如果你允許訪問實際的文章，你可以使用表面特徵fr在實際的文章中，例如文章的總篇幅，甚至是答覆的數量或反對文章的水平。你也可以在網上查看許多其他字典，例如奧格登的850基礎英語字典，看看壞的/好的文章是否可能從中提取很多單詞。我同意爲了這個目的想出很長的清單（例如100個特徵）有用的特徵似乎很困難。

來源

2012-07-17 17:20:45 TakeS

@D Seita。謝謝您的意見。一些想法看起來很有趣。我會嘗試應用它們。 – ashingel 2012-07-18 19:44:54

這項任務根本不重要。

直接的方法是找到或創建一個訓練集。這是一組帶有正面新聞的標題和一組帶負面新聞的標題。您將訓練集轉換爲TF/IDF表示形式，然後訓練線性SVM以分離兩個類。根據你的訓練集的質量和大小，你可以獲得一些體面的 - 不確定0.7的盈虧平衡點。

然後，爲了獲得更好的結果，你需要去NLP方法。嘗試使用詞性標註器來識別形容詞（微不足道），然後使用一些情感數據庫（如SentiWordNet）對它們進行評分。

上有Sentiment Analysis by Bo Pang and Lillian李應閱讀很好的概括：

來源

2012-07-17 23:28:04 iliasfl

感謝您的意見。不幸的是，在這一刻，語料庫是非常不平衡的，我正在等待這方面的改進。此外，我已經將POS功能與word的根結合使用。也使用了一個簡單的情感詞彙。 – ashingel 2012-07-18 19:36:27

iliasfl是正確的，這不是一個簡單的任務。

我會用一包字的方法，但首先使用POS標記器來標記標題中的每個單詞。然後，您可以刪除所有已命名的實體 - 正如您正確指出的那樣不會影響情緒。換句話說應該頻繁出現（如果你的數據集足夠大），可以將它們從極化中消除，無論是正向還是負向。

如果你仍然沒有接近，可以僅僅從標籤數據中選擇形容詞和動詞，因爲它們是傾向於表達情感或情緒的詞。

我不會因爲精度和召回數字而過於沮喪，但F值爲0.8或更高的實際上相當不錯。

來源

2012-07-18 16:55:29

是的。我已經將POS標籤應用於單詞並刪除了命名實體.BTW可能有意義將名稱實體替換爲「公司」，「位置」實體等值。稍後再嘗試。此外，在這一刻，我只使用形容詞，動詞和副詞作爲特徵，而忽略名詞，當它們不是情感詞時。 F現在也在0.8左右。 – ashingel 2012-07-18 19:43:20

金融新聞標題分類到正面/負面類

回答

相關問題