我希望能夠通過PHP將PDF文件轉換爲HTML文件,但我遇到了一些麻煩。在PDF中將PDF轉換爲HTML?
我發現了一個基本的方法來使用Saaspose,它可以將PDF轉換爲HTML文件。然而,這存在一些問題,例如使用SVG,圖像,定位,字體等。
我只需要從PHP文件和任何與其關聯的圖像中獲取文本的能力,然後以線性格式顯示它,而不是用絕對定位進行格式化。
我的意思是,如果PDF是這樣的:
我想把它轉換成單柱設計的HTML文件。如果有圖像,我想讓它們返回。
這是可能的PHP?我知道我可以簡單地從PDF文件中抓取文本,但抓取圖像又如何呢?
另一個問題是我希望一切都是內聯的,因爲它在單個文件中被提供給客戶端。目前,我可以通過一些代碼,使我的設置做到這一點:
for ($i = 0; $i < $object_number; $i++) {
$object = $html->find("object")->find("embed")->eq($i);
$embed = file_get_contents("Output/OutputHtml/" . $object->attr("src"));
array_push($converted_obj, $embed);
array_push($original_obj, $object);
}
for ($i = 0; $i < $object_number; $i++){
pq($original_obj[$i])->replaceWith($converted_obj[$i]);
}
這抓住所有SVG
文件和內嵌顯示它們。圖像會更容易,因爲我可以使用base64
。
這對我很有幫助,並且非常感謝。但如何給這裏的頁面範圍轉換?我嘗試添加** passthru(「pdftohtml $ source_pdf 3-5 $ output_folder/new_file_name」,$ b)**,但它不起作用。你能告訴嗎? – Hydrogirl 2014-02-18 21:47:19
也許它轉換完整的PDF,你必須添加一個delte php命令(在腳本執行後),刪除所有不需要的頁面...不知怎的,像這樣的概念: '$ unwanted_pages = array(5,6,7,8 ); foreach($ unwanted_pages as $ eachPageIndex){unlink('filename'。$ eachPageIndex);}' – 2014-03-07 09:58:32
有指定頁面的pdf腳本的參數:http://linux.die.net/man/1/pdftohtml $ a = passthru(「pdftohtml -f $ firstpage -l $ lastpage $ source_pdf $ output_folder/new_file_name」,$ b); 也檢查編碼選項 – mameluc 2015-06-10 07:53:58