pdf-extraction

    0熱度

    2回答

    我的目標是有一個python腳本,將訪問特定的網頁,提取每個頁面上的文件中具有特定詞的所有pdf文件,將它們轉換爲html/xml,然後瀏覽html文件以從pdf表格中讀取數據。 到目前爲止,我已導入mechanize(用於瀏覽頁面/查找pdf文件),並且我有pdfminer,但是我不確定如何在腳本中使用它來執行它在命令行上執行的相同功能。 什麼是完成我的任務最有效的一組庫,你會如何建議接近每一步

    0熱度

    2回答

    我真誠地道歉,如果這不是討論這個問題的合適論壇,但我不確定要去哪裏或什麼是最好的選擇。 基本上,我試圖找到一個數據庫友好的老牌醫院名單。我已經能夠找到最接近的是www.va.gov/ofcadmin/docs/CATB.pdf,因爲它擁有所有我在尋找的信息: 地區 地址 市中單獨列單獨的列 郵編 國家 設施#(也稱爲的stationID) VISN 符號 我已經嘗試將該PDF導出到CSV中,但這是

    8熱度

    5回答

    我有一個pdf文件,其中包含表單字段並需要將數據導出到xml文件中AUTOMATICALLY。下面是我爲測試創建了一個示例形式的屏幕: 注:它的偉大工程出口它手動使用Acrobat Professional中通過點擊Tools > Form > Export Form Data,最後選擇了文件輸出的XML擴展。這是我手動導出時得到的結果: <?xml version="1.0" encoding=

    3熱度

    1回答

    我想提取表的內容以PDF喜歡這樣: 我寫使用iText java PDF libray可以逐行讀取PDF文件行的內容這個java程序,但我不知道如何讓表的內容 import com.itextpdf.text.pdf.PdfReader; import com.itextpdf.text.pdf.parser.PdfTextExtractor; public class PDFReader

    0熱度

    3回答

    我有一些包含URL和mailto形式的超鏈接的PDF。現在是否有任何方式或工具(可能是第三方)從PDF中提取超鏈接元信息,如座標,鏈接類型和目標地址。任何幫助,高度讚賞。 我已經嘗試使用iText和PDFBox,但沒有大的成功,甚至有些第三方軟件也不能提供我想要的輸出。 我曾嘗試利用iText PdfReader myReader = new PdfReader("pdf File Path")

    0熱度

    1回答

    您好我正在研究一個速讀應用程序,我正在尋找一些提示或建議。在這個應用程序中,我必須使用不同的閱讀技巧,這需要從pdf格式化不同大小的文本。用於無圖片自動滾動的技術。有人已經知道誰來做這件事嗎?或者有我的例子嗎?

    0熱度

    1回答

    嗨即時試圖提取PDF文件,但IM所面臨的上述問題 我的代碼內容 use PDF; use CAM::PDF; use CAM::PDF::PageText; my $file = "s.pdf"; my $pdf = CAM::PDF->new($file); my $pageone_tree = $pdf->getPageContent(1); print CAM::PDF::

    1熱度

    1回答

    我正在編寫一個Web應用程序,該應用程序在PDF中的每個頁面的頂部提取一行。 PDF文件來自不同版本的產品,可以通過多種PDF打印機,也可以使用不同的版本和不同的設置。 到目前爲止使用PDFSharp和iTextSharp我已經設法讓它適用於所有版本的PDF。我的掛斷文件有CID字體(Identity-H)。 我已經寫了一個部分解析器來查找字體表引用和文本塊,但將它們轉換爲可讀文本正在擊敗我。 有

    6熱度

    2回答

    我一直在嘗試編寫一個簡單的控制檯應用程序或PowerShell腳本來從大量PDF文檔中提取文本。有幾種庫和CLI工具可以提供這種功能,但事實證明,沒有人能夠可靠地識別文檔結構。特別是我關心的是對文本列的認識。即使是非常昂貴的PDFLib TET工具也經常會忽略兩列相鄰文本的內容。 人們經常注意到PDF格式沒有任何列的概念,甚至沒有字。有關SO的類似問題的幾個答案提到這一點。問題非常嚴重,甚至需要學

    0熱度

    1回答

    我正在android中創建應用程序。我可以編寫文本並創建新的PDF,也可以讀取現有的PDF。 但我沒有得到解決方案來編輯​​現有的PDF文件。 在我的應用程序中編輯PDF是我必須達到的目標。 我試圖轉換它在字符串,但它在編碼form.Have搜查了很多但我不想使用任何付費庫或罐子。