2014-08-27 86 views
1

我有來自彭博,MarketWatch,CNN等各種金融網站的新聞文章列表。我想根據他們的財務相關性對文章進行分類,以便了解任何財務困境或任何危機是是否涉及。金融新聞機器學習

我使用NLTK開發了一個Python程序,根據它的財務相關性給每篇文章打分。

目前,我正在使用像關鍵字列表/詞典:

  • 市場
  • 金融
  • 損失
  • 貸款等

和檢查多少單詞從這個列表出現在新聞文章中並保持每個分數,然後添加所有單詞分數以獲得總分。

同樣地,我有列表/金融短語的詞彙:從這個

  • 未能與債權人同意
  • 申請破產
  • 文件第11章,等

成績列表和上面的列表被添加,然後將總體分數分配給作爲其相關性的指標的文章。

我想在這個過程中納入機器學習,並希望將上述方法的已分類新聞文章作爲訓練集。

請幫助找到最佳算法來實現此目的。

+0

這個問題是更好地在這裏問:stats.stackexchange.com(HTTP://統計。 stackexchange.com) – NorthCat 2014-08-27 10:21:15

回答