1
我有來自彭博,MarketWatch,CNN等各種金融網站的新聞文章列表。我想根據他們的財務相關性對文章進行分類,以便了解任何財務困境或任何危機是是否涉及。金融新聞機器學習
我使用NLTK開發了一個Python程序,根據它的財務相關性給每篇文章打分。
目前,我正在使用像關鍵字列表/詞典:
- 市場
- 金融
- 損失
- 貸款等
和檢查多少單詞從這個列表出現在新聞文章中並保持每個分數,然後添加所有單詞分數以獲得總分。
同樣地,我有列表/金融短語的詞彙:從這個
- 未能與債權人同意
- 申請破產
- 文件第11章,等
成績列表和上面的列表被添加,然後將總體分數分配給作爲其相關性的指標的文章。
我想在這個過程中納入機器學習,並希望將上述方法的已分類新聞文章作爲訓練集。
請幫助找到最佳算法來實現此目的。
這個問題是更好地在這裏問:stats.stackexchange.com(HTTP://統計。 stackexchange.com) – NorthCat 2014-08-27 10:21:15