1
我有一個pdf文件,同時有文字和圖片內容。我需要解析它。有沒有任何紅寶石寶石可以用?我曾嘗試pdf-reader紅寶石的寶石,但沒有解析圖像:(Ruby解析PDF文件有文字和圖片
一種替代方案是提取PDF格式的HTML,然後解析HTML內容。是否有任何開源PDF2HTML轉換器可以與既文本和工作圖片?
我有一個pdf文件,同時有文字和圖片內容。我需要解析它。有沒有任何紅寶石寶石可以用?我曾嘗試pdf-reader紅寶石的寶石,但沒有解析圖像:(Ruby解析PDF文件有文字和圖片
一種替代方案是提取PDF格式的HTML,然後解析HTML內容。是否有任何開源PDF2HTML轉換器可以與既文本和工作圖片?
PDF閱讀器可以提取圖像,但是還沒有一個很好的幫手,如PDF閱讀:: ::頁#文本(),所以它是相當手冊。
結帳的extract_images.rd例如@ 1]。
[1] https://github.com/yob/pdf-reader/blob/master/examples/extract_images.rb
「解析」是什麼意思?你想提取數據嗎?渲染一個頁面? – 2012-04-15 23:31:41
我想提取數據 – 2012-04-16 08:26:34