2
我正在嘗試使用pdftohtml,但我發現偶爾難以正確解析表格。它將來自兩列的文本分組到單個單元格中,這使得我試圖解析所得到的數據徒勞!pdftohtml的替代品
請注意,這隻會在PDF中出現一次或兩次,並且相當難以預測。
我試過最新版本的pdftohtml(包括0.40a測試版),但無濟於事。
是否有人知道任何可能值得嘗試的Linux兼容等價物?
感謝,
山姆
我正在嘗試使用pdftohtml,但我發現偶爾難以正確解析表格。它將來自兩列的文本分組到單個單元格中,這使得我試圖解析所得到的數據徒勞!pdftohtml的替代品
請注意,這隻會在PDF中出現一次或兩次,並且相當難以預測。
我試過最新版本的pdftohtml(包括0.40a測試版),但無濟於事。
是否有人知道任何可能值得嘗試的Linux兼容等價物?
感謝,
山姆
pdf2htmlEX是最好的PDF到HTML我見過。
安裝:brew install pdf2htmlex
我不得不使用brew install -f pdf2htmlex
運行例如:pdf2htmlEX --embed cfijo --dest-dir 'your-directory' your.pdf
創建與.html和ref'd圖像的新目錄
您所提交一個錯誤報告?衆所周知,PDF是難以解析的,並且令人難以置信的時間流入了poppler工具。你最好的選擇可能是看看你能做什麼來幫助上游。 – efrey 2012-05-15 14:11:13