我正在尋找一種實用程序或庫,用於從PDF中提取文本並以純文本格式進行格式化,同時儘可能保留原始佈局(例如表格,列等)。將PDF轉換爲格式化的ASCII - 最新技術狀態如何?
我們目前使用pdftotext,但我想知道是否有更好的。它必須是一個命令行工具或一個我們可以鏈接到我們的應用程序的庫。
pdftotext的效果如何,還是有更好的?
我正在尋找一種實用程序或庫,用於從PDF中提取文本並以純文本格式進行格式化,同時儘可能保留原始佈局(例如表格,列等)。將PDF轉換爲格式化的ASCII - 最新技術狀態如何?
我們目前使用pdftotext,但我想知道是否有更好的。它必須是一個命令行工具或一個我們可以鏈接到我們的應用程序的庫。
pdftotext的效果如何,還是有更好的?
爲了同樣的問題,他們的利益:我們結束了pdftotext
,儘管它的缺點(如使用字體子集時有時產生垃圾輸出)。
AbiWord有一個SoC項目。 IIRC,它在重新創建多欄文檔,表格和數字方面做得非常好。還有一個命令行界面。
部分原因是,我認爲一些簡單的操作PDF /創建工具不添加文本,但文本保存爲靜態圖像,如PDF文件的一部分。對於那些文件,你將不得不使用OCR。
有很多pdf庫...只是谷歌它。 – 2009-07-01 01:54:39