我需要從pdf創建json以將PDF內容呈現爲包含所有圖像和文本的HTML。我已經嘗試了下面的模塊來做到這一點。我現在只能提取純色圖像,但無法提取圖形圖像和背景陰影圖像。有沒有任何模塊來獲得這些?從pdf文件中提取所有圖像和文本
模塊試圖
-PDFMiner (python)
-Mammoth(Node)
-pdf2json(Node)
-PDFBox(Java)
我需要從pdf創建json以將PDF內容呈現爲包含所有圖像和文本的HTML。我已經嘗試了下面的模塊來做到這一點。我現在只能提取純色圖像,但無法提取圖形圖像和背景陰影圖像。有沒有任何模塊來獲得這些?從pdf文件中提取所有圖像和文本
模塊試圖
-PDFMiner (python)
-Mammoth(Node)
-pdf2json(Node)
-PDFBox(Java)
看一看http://pythonhosted.org/PyMuPDF/。顯然這個產品以各種格式呈現頁面,包括json。雖然我的經驗有限,但http://code.activestate.com/recipes/580703-extract-images-of-a-pdf-optionally-by-page-using-p/history/1/的配方說明了如何使用PyMuPDF從PDF中提取圖像。
我正在獲取圖像的寬度和高度,但無法獲取圖像座標 – mani
您應該將此作爲新問題發佈。請提供一個PDF鏈接,最好是一個能夠證明您遇到的問題的小鏈接,併發布您的代碼。 –
與*圖形圖像*相比,什麼是*純圖像?什麼是*背景陰影圖像*?你是如何嘗試使用上述模塊的? – mkl
lpie圖,條形圖是圖形圖像..其他圖像是plain.background圖像是背景陰影圖像... – mani
PDF格式不知道餅圖或條形圖作爲特殊圖形。它主要知道文本,矢量圖形和位圖圖形。可能你的「圖形圖像」屬於一類,而你的「其他圖像」屬於另一類。 PDF格式不會將內容全局分離爲背景和前景。您認爲背景的任何圖形也可以用作前景,反之亦然。 – mkl