使用Ruby和Ubuntu進行光學字符識別

我是一名大學生，現在該再次購買教科書。本季度，我有超過20本書需要上課。通常情況下，這不會是一件大事，因爲我只是將ISBN複製並粘貼到亞馬遜。然而，國際標準書號在我學校的圖書網站上被轉換成了圖像。我想要做的就是將ISBN轉換爲一個字符串，所以我不必手動輸入每一個。我已經使用GOCR將圖像轉換爲文本，但我想將它與Ruby腳本一起使用，這樣我就可以自動執行該過程，併爲我的同學做同樣的事情。使用Ruby和Ubuntu進行光學字符識別

我可以導航到該網站。如何將圖像保存到我的計算機上的文件（運行UBUNTU），使用GOCR轉換圖像，最後將其保存到文件中，然後使用我的Ruby腳本再次訪問它們？

來源

2009-12-09 ryan

聽起來像一個很酷的項目，如果ISBN圖像存儲在單個文件中，不應該太難。

這一切都可以在後臺運行：

下載網頁（網/ HTTP）
保存元數據+圖像文件的每本書（回形針）
運行GOCR上的所有圖片

所有你需要的是一個網址列表或一個履帶式（機械化），然後你可能需要花幾分鐘時間編寫解析器（見喬的職位）爲大學的HTML頁面。

來源

2009-12-09 22:12:08 klochner

GOCR起初似乎是一個不錯的選擇，但從我自己的「研究」中可以看出，質量對日常使用來說還不夠充分。也許這可能會導致問題，這取決於圖像輸入。如果它不適合您，請嘗試使用Google文檔的「新增」功能，該功能允許您上傳用於OCR的圖像。然後，您可以使用一些谷歌的API（有噸在那裏，我使用gdata-ruby-util這需要一些黑客，但。

你也可以使用的Tesseract-OCR的OCR部分檢索結果，它也是開源和積極開發

對於檢索部分，我還會堅持使用hpricot，超級強大，靈活。

來源

2009-12-09 22:35:05 moritz

使用Ruby和Ubuntu進行光學字符識別

回答

相關問題