我應該嘗試使用哪些算法來嘗試對這些PDF進行分類？

我們正在抓取和下載大量公司的PDF文件，並試圖挑選出年報。這些報告可以從大多數公司的投資者關係頁面下載。我應該嘗試使用哪些算法來嘗試對這些PDF進行分類？

的PDF文件進行掃描，並將數據庫填充，除其他事項外，：

利用這些數據，我們檢查了明顯的短語，如：

然後記錄這些頻率短語和其他。到目前爲止，我們已經掃描了大約350,000份PDF文件，並且已經將4,000份文檔的培訓集合手動分類爲報告或非報告。

我們正在試驗許多不同的方法，包括貝葉斯分類器和加權可用的不同因素。我們在Ruby中構建分類器。我的問題是：如果你正在考慮這個問題，你會從哪裏開始？

感謝您更改格式化Sergio;） –

沒問題。今後請確保您的帖子看起來很漂亮，然後再點擊「Submit」:) –

你應該先嚐試一種快速和基本的方法來形成一個基線，這可能足以滿足你的目的。這裏有一個這樣的方法：

掃描所有pdfs並形成詞彙表，它是任何文檔中出現的所有單詞的編號列表。

通過計算每個單詞的詞頻（所有單詞，不用麻煩手選取它們），從這個詞彙表中爲每個文檔創建一個特徵向量。文件j的特徵i是單詞i出現在文件j中的次數。

然後通過單詞重要性來指數化特徵，這與單詞在所有文檔中出現的頻率相反。（即，所有文檔中出現的詞越頻繁（例如「the」）它所包含的信息就越少）。

然後使用無監督聚類算法（如k-means）對文檔進行聚類。您通過隨機放置k個集羣質心進行初始化，爲其分配最近的文檔，然後將質心移到分配給它們的文檔的平均值，然後重複最後兩個步驟，直到收斂。

然後通過使用幾個標籤示例找到包含年度報告的集羣。

調整具有交叉驗證集合的集羣數量，直到交叉驗證集合的準確度很高。

然後最後測試一個持有測試集。如果這是低迴來。

2012-06-24 18:16:11

感謝您花時間寫出您的想法。真的很有幫助。 –

對於我幾年前的論文，我做了類似的事情，但是使用了數字化的幻燈片和考試試卷。我在搜索引擎，搜索算法以及確定搜索的有效性方面遇到的最好的書籍之一是：

搜索引擎：信息檢索實踐中，W.布魯斯克羅夫特，唐納德梅茨勒，特雷弗Strohman

有在出版商網站的一些樣章，這將告訴你，如果這本書對你與否：pearsonhighered.com

希望有所幫助。

2012-06-24 18:17:39 stormCloud

非常感謝。我會研究這一點。 –

回答