0
我希望能夠確定一個PDF頁面,類似上的文字,圖片和路徑的區域邊框上什麼如下所示:確定「感興趣盒子」 PDF頁面
http://www.windjack.com/products/screenshot/pdfcanscreenshot2.html
看看PDF規範,我可以看到如何確定路徑和圖像的邊界框,但我看不到如何到達它們的文本。我是否必須手工計算它,從字體大小等確定字形的高度和寬度,還是有更直接的方法?
我希望能夠確定一個PDF頁面,類似上的文字,圖片和路徑的區域邊框上什麼如下所示:確定「感興趣盒子」 PDF頁面
http://www.windjack.com/products/screenshot/pdfcanscreenshot2.html
看看PDF規範,我可以看到如何確定路徑和圖像的邊界框,但我看不到如何到達它們的文本。我是否必須手工計算它,從字體大小等確定字形的高度和寬度,還是有更直接的方法?
您或許可以從解決方案入手"How do I get character offset information from a pdf document?"這將爲您提供文檔中字符和/或子字符串的x,y,寬度和高度。從那裏開始,更難的部分就是把這些角色組合成空間不同的區域。不能保證頁面上的空間分組文本在文件格式的語法上彼此接近...
謝謝,克里斯。我不會說Perl(並且它不是我所針對的平臺上的),但是從我的有限理解來看,它似乎是通過逐字檢查實際的字體度量來確定文本字符串的寬度;我認爲沒有更高層次的方法? 也謝謝你對PDF格式非結構化的警告! – hatfinch 2009-06-18 12:23:19