我正在尋找一種對主要由文本組成的掃描頁面進行分類的方法。python中的圖像分類
這裏是我的問題的細節。我有大量的掃描文檔,需要檢測這些文檔中是否存在特定類型的頁面。我打算將文檔「爆裂」到他們的組件頁面中(每個頁面都是一個單獨的圖像),並將這些圖像分類爲「A」或「B」。但我無法弄清楚這樣做的最佳方法。
更多細節:
- 我有 「A」 和 「B」 的圖像(頁)的例子不勝枚舉,所以我可以做監督學習。
- 目前還不清楚如何從這些圖像中爲訓練提供最好的特徵。例如。這些功能是什麼?
- 頁面偶爾略微旋轉,所以如果分類對旋轉和(較小程度上)縮放比較不敏感,那將會很好。
- 我想要一個跨平臺的解決方案,理想情況下使用純Python或使用通用庫。
- 我想過使用OpenCV,但這看起來像一個「重量級」解決方案。
編輯:
- 的「A」和「B」的網頁的區別在於「B」的頁面具有相同的一般結構上他們的形式,包括條形碼的存在。 「A」頁面是自由文本。
它們有什麼不同?字體?尺寸?你可以只是OCR的一部分(標題或作者在頭?) – 2010-10-11 13:42:09
尼克,我添加了一個編輯澄清。其實,我的目標是在B頁之後扔掉所有東西,因爲我不必OCR它們。所以,我真的需要在做任何OCR之前檢測它們。 – Kyle 2010-10-11 13:51:30
這是一個相當困難的問題 - 除非你的集合確實是巨大的,豈不是更容易只是人工分類的網頁爲'A'或'B'?您可以編寫一個小GUI應用程序來輪流顯示它們,這樣您就可以每頁按一個鍵。 – katrielalex 2010-10-11 13:53:45