2012-07-24 63 views
0

我設置字體屬性文件來訓練tesseract v 3.01 ocr引擎時遇到問題。根據3.01v,你需要設置一個字體屬性文件。所述font_properties文件的格式是這樣的:Font_Property問題,同時訓練Tesseract-OCR V 3.01

和0或1的標誌必須被用於指示屬性。是否有人知道固定的,襯線的還是fraktur的含義?

,當我與我的font_properties運行文件,它引發以下錯誤enter image description here]![enter image description here

謝謝

回答

1

沒有輸入文件的Tesseract培訓應該有自己的名字空間。

font_properties中的條目應該與圖像文件的名稱的fontname部分匹配;例如,如果font_properties具有uknumberplate,則圖像的文件名應爲eng.uknumberplate.exp0.tif。

+0

好,但你能告訴我什麼文件名應該是font_properties?圖像文件?和boxfile。即時通訊現在完全混淆:(謝謝 – 2012-07-25 15:53:57

+0

只需密切關注Tesseract培訓維基(http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3)。字體名稱應該是相同或接近的名稱例如,對於Times New Roman斜體,圖像的名稱將是eng.timesi.exp0.tif。box文件的fontname部分和font_properties中的條目應與圖像的條目匹配,例如:eng.timesi.exp0 .box和timesi分別爲0 0 0 1 0。 – nguyenq 2012-07-25 23:31:42

+0

您對此有何看法?http://stackoverflow.com/questions/11674288/what-files-should-be-included-in-the-tessdata-folder -after培訓,正方體 – 2012-07-26 17:38:45

1

固定(或等寬),serif和Fraktur是標準的字體描述 - 你可以看一下他們意思是維基百科。

關於你的錯誤,確保你正確地正確地格式化了你的font_properties文件,正如在下面的Training Tesseract 3教程中所概述的。如果你只練一種字體,該文件應包含一個行,你的情況

times_new_roman 0 0 0 1 0

您還沒有包括你放什麼在你的font_properties文件,但要注意你的字體名稱不應該有空格!

http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3

+0

uknumberplate 0 0 0 1 0這是我得到它。但它一直在拋出相同的錯誤 – 2012-07-24 13:46:12

0

您必須在命令中放入font_properties.txt,但隨後會在窗口中引發異常,但它會查找字體屬性文件。