2016-07-12 55 views
1

我有很多文件夾,其中包含大量圖像文件。有時候,掃描的文檔圖像偶然會以文件夾的形式出現在文件夾中,並且缺少可視化掃描文件夾的人員,但這些文檔仍未被發現,但是如果發佈到錯誤的位置可能會導致問題。檢測圖像文件的內容:在圖片中查找掃描的文檔

因爲它們可能已被掃描的任何文件類型和大小,大致上真正的圖像的範圍內,他們很難從元數據檢測。

有誰知道的方法來檢測從真的圖像掃描的文檔 - 無論是工具或編程方式?

回答

4

我建議考慮看看雅閣框架:http://accord-framework.net/。查看計算機視覺功能。我認爲這應該取決於你所描述的任務,再加上它是一個有趣的新領域。祝你好運。

+0

通過使用大量訓練樣本,您應該能夠「教」您的程序(使用Accord或類似)來識別差異。 –

+0

我認爲這可能是最好的方法 - 標記出現符合模式的評論圖像,然後允許機器學習根據人類評論不斷細化模式。 – BlueChippy

1

假設掃描文檔看起來像文檔,任何圖像處理庫應該做的。您只需挑選一些功能來整理任何不是文檔的東西。使用這些功能來應用一些基本分類或機器學習。

剩餘的幾個文件可以由人工檢查或使用某些ORC。我不會在所有文件上運行OCR,因爲它需要比簡單分類更多的計算時間。

文件(特別是機密文件)往往有一個明亮的背景,高頻率的黑暗前景。黑暗的東西按行分組。幾乎沒有顏色,如果這些顏色通常只在文檔的一小部分(標誌等) 我想不出許多共享這些屬性的圖像。

所以,除非你有很多您的收藏報紙和書籍的照片你的罰款。

過程中掃描儀和照相機具有不同的成像特性和光學像差,我敢肯定,你可以找到一些他們的文件,但不會對所有圖像的工作。特別是如果這些圖像是從更大的圖像中裁剪出來的。

0

文件夾中是否還有其他文字背景圖片?這些掃描文檔中是否有大圖片?一種非簡單的過濾大部分文本文件的方法都是基於香農(直方圖)熵來高通圖像。大多數圖像的熵值高於簡單文檔的一個數量級。

相關問題