2011-04-01 101 views
2

我正在嘗試使用pdftohtml,但我發現偶爾難以正確解析表格。它將來自兩列的文本分組到單個單元格中,這使得我試圖解析所得到的數據徒勞!pdftohtml的替代品

請注意,這隻會在PDF中出現一次或兩次,並且相當難以預測。

我試過最新版本的pdftohtml(包括0.40a測試版),但無濟於事。

是否有人知道任何可能值得嘗試的Linux兼容等價物?

感謝,

山姆

+0

您所提交一個錯誤報告?衆所周知,PDF是難以解析的,並且令人難以置信的時間流入了poppler工具。你最好的選擇可能是看看你能做什麼來幫助上游。 – efrey 2012-05-15 14:11:13

回答

0

pdf2htmlEX是最好的PDF到HTML我見過。

安裝:brew install pdf2htmlex

我不得不使用brew install -f pdf2htmlex

運行例如:pdf2htmlEX --embed cfijo --dest-dir 'your-directory' your.pdf

創建與.html和ref'd圖像的新目錄