2017-05-07 110 views
0

我需要從pdf創建json以將PDF內容呈現爲包含所有圖像和文本的HTML。我已經嘗試了下面的模塊來做到這一點。我現在只能提取純色圖像,但無法提取圖形圖像和背景陰影圖像。有沒有任何模塊來獲得這些?從pdf文件中提取所有圖像和文本

模塊試圖

-PDFMiner (python) 
-Mammoth(Node) 
-pdf2json(Node) 
-PDFBox(Java) 
+0

與*圖形圖像*相比,什麼是*純圖像?什麼是*背景陰影圖像*?你是如何嘗試使用上述模塊的? – mkl

+0

lpie圖,條形圖是圖形圖像..其他圖像是plain.background圖像是背景陰影圖像... – mani

+0

PDF格式不知道餅圖或條形圖作爲特殊圖形。它主要知道文本,矢量圖形和位圖圖形。可能你的「圖形圖像」屬於一類,而你的「其他圖像」屬於另一類。 PDF格式不會將內容全局分離爲背景和前景。您認爲背景的任何圖形也可以用作前景,反之亦然。 – mkl

回答

0

看一看http://pythonhosted.org/PyMuPDF/。顯然這個產品以各種格式呈現頁面,包括json。雖然我的經驗有限,但http://code.activestate.com/recipes/580703-extract-images-of-a-pdf-optionally-by-page-using-p/history/1/的配方說明了如何使用PyMuPDF從PDF中提取圖像。

+0

我正在獲取圖像的寬度和高度,但無法獲取圖像座標 – mani

+0

您應該將此作爲新問題發佈。請提供一個PDF鏈接,最好是一個能夠證明您遇到的問題的小鏈接,併發布您的代碼。 –