2009-12-09 64 views
5

我是一名大學生,現在該再次購買教科書。本季度,我有超過20本書需要上課。通常情況下,這不會是一件大事,因爲我只是將ISBN複製並粘貼到亞馬遜。然而,國際標準書號在我學校的圖書網站上被轉換成了圖像。我想要做的就是將ISBN轉換爲一個字符串,所以我不必手動輸入每一個。我已經使用GOCR將圖像轉換爲文本,但我想將它與Ruby腳本一起使用,這樣我就可以自動執行該過程,併爲我的同學做同樣的事情。使用Ruby和Ubuntu進行光學字符識別

我可以導航到該網站。如何將圖像保存到我的計算機上的文件(運行UBUNTU),使用GOCR轉換圖像,最後將其保存到文件中,然後使用我的Ruby腳本再次訪問它們?

回答

2

聽起來像一個很酷的項目,如果ISBN圖像存儲在單個文件中,不應該太難。

這一切都可以在後臺運行:

  • 下載網頁(網/ HTTP)
  • 保存元數據+圖像文件的每本書(回形針)
  • 運行GOCR上的所有圖片

所有你需要的是一個網址列表或一個履帶式(機械化),然後你可能需要花幾分鐘時間編寫解析器(見喬的職位)爲大學的HTML頁面。

3

GOCR起初似乎是一個不錯的選擇,但從我自己的「研究」中可以看出,質量對日常使用來說還不夠充分。也許這可能會導致問題,這取決於圖像輸入。如果它不適合您,請嘗試使用Google文檔的「新增」功能,該功能允許您上傳用於OCR的圖像。然後,您可以使用一些谷歌的API(有噸在那裏,我使用gdata-ruby-util這需要一些黑客,但。

你也可以使用的Tesseract-OCR的OCR部分檢索結果,它也是開源和積極開發

對於檢索部分,我還會堅持使用hpricot,超級強大,靈活。