我在哪裏可以找到HOCR文件的樣本？

我在哪裏可以找到樣本或hocr格式的文件示例？（OCR提取文本的格式與頁面座標一起存儲。）我在哪裏可以找到HOCR文件的樣本？

我一直在Google上查找，但無法提供任何示例。

謝謝！

2011-11-25 Alasdair

這是一個hOCR文件的一個片段，爲了可讀性而添加了一些新行。不幸的是，我不記得哪個工具被用來生成它（可能是ocropus），但我認爲tesseract 3.01，也許其他人定義了每個單詞的邊界框，而不是他們的hOCR輸出中的每個字母。

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> 
<html> 
    <head> 
    <title> 
    </title> 
    <meta http-equiv="Content-Type" content="text/html;charset=utf-8" > 
    </head> 
    <body> 
    <p> 
     <span title="bbox 171 287 184 302">B</span><span title="bbox 186 292 195 302">a</span><span title="bbox 196 292 205 302">n</span><span title="bbox 209 287 217 302">k</span> <span title="bbox 226 287 239 302">A</span><span title="bbox 242 292 250 303">c</span><span title="bbox 252 292 260 303">c</span><span title="bbox 262 292 272 303">o</span><span title="bbox 274 293 283 303">u</span><span title="bbox 285 293 294 303">n</span><span title="bbox 297 291 302 303">t</span> <span title="bbox 309 288 323 303">N</span><span title="bbox 326 293 335 303">u</span><span title="bbox 337 293 353 303">m</span><span title="bbox 354 288 364 303">b</span><span title="bbox 366 293 375 303">e</span><span title="bbox 377 293 380 303">r</span> 
    </p> 
    <p> 
     <span title="bbox 170 340 183 355">B</span><span title="bbox 186 345 195 355">a</span><span title="bbox 196 345 205 355">n</span><span title="bbox 208 340 217 355">k</span> <span title="bbox 225 341 239 355">A</span><span title="bbox 242 340 252 356">d</span><span title="bbox 253 340 263 356">d</span><span title="bbox 264 345 271 355">r</span><span title="bbox 272 345 280 356">e</span><span title="bbox 282 345 289 356">s</span><span title="bbox 291 345 298 356">s</span> 
    </p> 
    </body> 
</html>

來源

2011-11-28 17:25:33

您可以使用Tesseract的命令行選項「HOCR」輸出結果HOCR格式：

tesseract youimage.tif out hocr

來源

2011-11-30 00:47:32 nguyenq

我在哪裏可以找到HOCR文件的樣本？

回答

相關問題