從pdf文件中提取所有圖像和文本

我需要從pdf創建json以將PDF內容呈現爲包含所有圖像和文本的HTML。我已經嘗試了下面的模塊來做到這一點。我現在只能提取純色圖像，但無法提取圖形圖像和背景陰影圖像。有沒有任何模塊來獲得這些？從pdf文件中提取所有圖像和文本

模塊試圖

-PDFMiner (python) 
-Mammoth(Node) 
-pdf2json(Node) 
-PDFBox(Java)

2017-05-07 mani

與*圖形圖像*相比，什麼是*純圖像？什麼是*背景陰影圖像*？你是如何嘗試使用上述模塊的？ – mkl

lpie圖，條形圖是圖形圖像..其他圖像是plain.background圖像是背景陰影圖像... – mani

PDF格式不知道餅圖或條形圖作爲特殊圖形。它主要知道文本，矢量圖形和位圖圖形。可能你的「圖形圖像」屬於一類，而你的「其他圖像」屬於另一類。 PDF格式不會將內容全局分離爲背景和前景。您認爲背景的任何圖形也可以用作前景，反之亦然。 – mkl

看一看http://pythonhosted.org/PyMuPDF/。顯然這個產品以各種格式呈現頁面，包括json。雖然我的經驗有限，但http://code.activestate.com/recipes/580703-extract-images-of-a-pdf-optionally-by-page-using-p/history/1/的配方說明了如何使用PyMuPDF從PDF中提取圖像。

2017-05-08 15:07:44

我正在獲取圖像的寬度和高度，但無法獲取圖像座標 – mani

您應該將此作爲新問題發佈。請提供一個PDF鏈接，最好是一個能夠證明您遇到的問題的小鏈接，併發布您的代碼。 –

回答