2016-02-08 48 views
3

我想從圖像執行文本識別,我想使用Python。我安裝了Anaconda。現在我想安裝Tesseract,但我也需要安裝Leptonica。我沒有發現任何明確的指示如何在Windows中做到這一點。對於Leptonica我不想安裝Visual Studio。 因此,任何人都可以提供清晰的說明如何在沒有Visual Studio的Windows上安裝leptonica和tesseract以在anaconda中使用? 謝謝。如何在沒有Visual Studio的Windows上安裝Leptonica + tesseract以在Anaconda中使用?

回答

4

這是一套簡單的步驟,讓正方體3.05版本的開發作爲2016年4月22日在Windows 7和Windows 8機器工作都:

1 - 從官方的Tesseract-OCR頁面的可執行文件安裝正方體(版本3.02 windoes就足夠了)

2 - 從http://domasofan.spdns.eu/tesseract/

下載正方體3.05版本開發的以下兩個文件有2個exe文件:

  • tesseract-core-yyyymmdd.exe 沒有語言數據的Tesseract核心應用程序
  • tesseract-langs-yyyymmdd.exe 所有可用於Tesseract的語言數據。

(YYYYMMDD意味着今年4個位數,每月2位,日2位數字。)

應用程序是移動的,因此你可以在U盤或在其他位置安裝它。

子步驟來安裝這些:

  1. 下載的Tesseract核心和正方體,LANGS包。
  2. 雙擊tesseract-core軟件包並將其提取到您想要的目錄(名爲「Tess_temp」的臨時新文件夾)。
  3. 雙擊tesseract-langs包並將其解壓到相同的目錄,但在上面的「Tess_temp」文件夾中添加\ tessdata。 例如,如果我將tesseract-core提取到c:\ Tess_temp,則tesseract-langs需要轉到c:\ Tess_temp \ tessdata。

  4. 現在複製你有什麼都在 「Tess_temp」 去哪兒正方體3.02安裝在上面的步驟1(其usially在C:\ Program Files文件(x86)的\的Tesseract-OCR)(更換3.02的材料與3.05)

  5. 它現在應該與Windows上的3.05版本一起工作。 複製的樣本圖像test.png(文本)這個正方體-OCR文件夾,打開下面的命令一個命令,然後鍵入:

    去正方體文件夾:在test.png cd C:\Program Files <x86>\Tesseract-OCR

    運行正方體: tesseract -l eng test.png test_text -psm 6

它會告訴你

Tesseract Open Source OCR Engine v3.05.00dev with Leptonica 

祝賀! (檢查test_txt。txt爲提取的文本)

+3

您在答案中提到的鏈接根本無法打開 –

+1

對不起,鏈接現在刪除,我設法使用windows 10的機器上使用4.0的tesseract沒有任何問題。我認爲上一個bug現在已經修復。 –

相關問題