2012-06-24 51 views
3

我們正在抓取和下載大量公司的PDF文件,並試圖挑選出年報。這些報告可以從大多數公司的投資者關係頁面下載。我應該嘗試使用哪些算法來嘗試對這些PDF進行分類?

的PDF文件進行掃描,並將數據庫填充,除其他事項外,:

  • 標題
  • 內容(全文)
  • 頁數
  • 字數
  • 方向
  • 第一行

利用這些數據,我們檢查了明顯的短語,如:

  • 年度報告
  • 財務報表
  • 季度報告
  • 中期報告

然後記錄這些頻率短語和其他。到目前爲止,我們已經掃描了大約350,000份PDF文件,並且已經將4,000份文檔的培訓集合手動分類爲報告或非報告。

我們正在試驗許多不同的方法,包括貝葉斯分類器和加權可用的不同因素。我們在Ruby中構建分類器。我的問題是:如果你正在考慮這個問題,你會從哪裏開始?

+0

感謝您更改格式化Sergio;) –

+0

沒問題。今後請確保您的帖子看起來很漂亮,然後再點擊「Submit」:) –

回答

4

你應該先嚐試一種快速和基本的方法來形成一個基線,這可能足以滿足你的目的。這裏有一個這樣的方法:

掃描所有pdfs並形成詞彙表,它是任何文檔中出現的所有單詞的編號列表。

通過計算每個單詞的詞頻(所有單詞,不用麻煩手選取它們),從這個詞彙表中爲每個文檔創建一個特徵向量。文件j的特徵i是單詞i出現在文件j中的次數。

然後通過單詞重要性來指數化特徵,這與單詞在所有文檔中出現的頻率相反。 (即,所有文檔中出現的詞越頻繁(例如「the」)它所包含的信息就越少)。

然後使用無監督聚類算法(如k-means)對文檔進行聚類。您通過隨機放置k個集羣質心進行初始化,爲其分配最近的文檔,然後將質心移到分配給它們的文檔的平均值,然後重複最後兩個步驟,直到收斂。

然後通過使用幾個標籤示例找到包含年度報告的集羣。

調整具有交叉驗證集合的集羣數量,直到交叉驗證集合的準確度很高。

然後最後測試一個持有測試集。如果這是低迴來。

+0

感謝您花時間寫出您的想法。真的很有幫助。 –

1

對於我幾年前的論文,我做了類似的事情,但是使用了數字化的幻燈片和考試試卷。我在搜索引擎,搜索算法以及確定搜索的有效性方面遇到的最好的書籍之一是:

搜索引擎:信息檢索實踐中,W.布魯斯克羅夫特,唐納德梅茨勒,特雷弗Strohman

有在出版商網站的一些樣章,這將告訴你,如果這本書對你與否:pearsonhighered.com

希望有所幫助。

+0

非常感謝。我會研究這一點。 –

相關問題