計算機視覺中的一個具有挑戰性的主題是處理文檔掃描。通常這涉及許多步驟,如去噪,色彩分析,二值化,文本塊識別,OCR,然後可能進行一些上下文分析和校正。Google圖書如何找到文本區域?
我很好奇,如果任何人都明白,知道或可以指示我如何谷歌在OCR階段之前識別文本塊的文學。任何見解?
計算機視覺中的一個具有挑戰性的主題是處理文檔掃描。通常這涉及許多步驟,如去噪,色彩分析,二值化,文本塊識別,OCR,然後可能進行一些上下文分析和校正。Google圖書如何找到文本區域?
我很好奇,如果任何人都明白,知道或可以指示我如何谷歌在OCR階段之前識別文本塊的文學。任何見解?
這是我圖書館數字化專家的第二手資料,但Google的做法似乎是將所有內容都通過自動化過程,ocr看起來像是文本,並且不會過多地關注裁剪單個圖像或者做很多語義分析以尋找圖像標題等等。他們可能在做一些微妙的事情,這些事情不是很明顯,但表面上他們肯定是在質量上打擊數量,這對他們爲他們的目的而言是明智的,IMO。
我相信Google會將Tesseract OCR引擎與另一個名爲Ocropus的工具結合使用,這兩個工具都是開源的。我不知道他們如何工作,但您可能有興趣查看上述鏈接中提供的代碼。