2011-08-10 26 views
1

我想能夠識別什麼頁面的文字只有(沒有圖像)書我在...什麼是最好的辦法:計算機視覺 - 使用圖像匹配或OCR識別純文本書的頁面?

我最初正在考慮某種圖像匹配,但頁面一個所有的課本看起來如此相似,不知道這將如何工作?

第二個想法是使用OCR?

任何意見或建議...謝謝!

+0

這將如何查詢?你有樣品圖像嗎?這聽起來像是理論上很容易的問題類型,但在實踐中可能相當困難。 – carlosdc

+0

是的,我會參考圖像的書頁 – bainsey

回答

2

我認爲在您的情況下圖像匹配確實沒用... 如果您想檢測您是哪個頁面並且該書籍已編號頁面,您可以使用像Tesseract這樣的OCR。

  • 1)找到的頁號(頂部左手角落,右,下..)
  • 2)提取它(提取imaget就其它解碼)
  • (2之二)的預處理imaget ...)
  • 3)對其進行解碼(用正方體或其他OCR)

如果你不想使用OCR你可以看看胡時刻,如果數字是標準的印刷數量就可以很好地識別它們。

+0

對不起,我不明白上面...感謝您的建議,但我的目標是爲這樣做幾本書,所以我不能使用頁碼,因爲這不'區分書籍。此外,任何想法像Tesseract OCR有多長時間解碼一個標準的書頁? – bainsey

+0

然後你需要的不是一個真正的圖像處理算法。只需使用OCR對整個頁面進行解碼,提取關鍵字,然後當您查詢頁面時,它會使用關鍵字在數據庫中進行搜索...非常容易,但很難完成...... – jmartel

+0

謝謝!我認爲你是對的,那將是最好的,如果不是唯一的辦法。任何想法解碼整個頁面需要多長時間? – bainsey