我必須將PDF轉換爲文本,目前我正在使用pdftotext.exe
。這有時會弄亂結果文本,所以我不能使用它。將PDF轉換爲不帶pdftotext的文本?
是否有另一個免費工具,我可以從另一個程序調用?我更喜歡命令行工具。
我必須將PDF轉換爲文本,目前我正在使用pdftotext.exe
。這有時會弄亂結果文本,所以我不能使用它。將PDF轉換爲不帶pdftotext的文本?
是否有另一個免費工具,我可以從另一個程序調用?我更喜歡命令行工具。
PDF可能會非常棘手轉換取決於其如何構造文本,但你可能會從iTextSharp的或GhostScript的或商業成分如良好的效果:從www.tallcomponents.com(不隸屬於)
PDF文件通常不包含任何結構,因此軟件需要猜測它。我寫上的問題的博客文章在http://www.jpedal.org/PDFblog/2009/04/pdf-text/
你也可以嘗試PDFBOX。
我發現Apache PDFBox比pdftotext好得多。它以更接近原始文檔格式的方式提取文本。它可以從命令行運行。
可以iTextSharp的轉換也從PDF到TXT? – EOB 2012-01-17 14:32:21
它可以提取文本,在這裏看到一個例子和其他選項:http://stackoverflow.com/questions/4711134/itextsharp-text-extraction – 2012-01-17 17:19:09