我們正在抓取和下載大量公司的PDF文件,並試圖挑選出年報。這些報告可以從大多數公司的投資者關係頁面下載。我應該嘗試使用哪些算法來嘗試對這些PDF進行分類?
的PDF文件進行掃描,並將數據庫填充,除其他事項外,:
- 標題
- 內容(全文)
- 頁數
- 字數
- 方向
- 第一行
利用這些數據,我們檢查了明顯的短語,如:
- 年度報告
- 財務報表
- 季度報告
- 中期報告
然後記錄這些頻率短語和其他。到目前爲止,我們已經掃描了大約350,000份PDF文件,並且已經將4,000份文檔的培訓集合手動分類爲報告或非報告。
我們正在試驗許多不同的方法,包括貝葉斯分類器和加權可用的不同因素。我們在Ruby中構建分類器。我的問題是:如果你正在考慮這個問題,你會從哪裏開始?
感謝您更改格式化Sergio;) –
沒問題。今後請確保您的帖子看起來很漂亮,然後再點擊「Submit」:) –