2012-01-17 56 views
2

我必須將PDF轉換爲文本,目前我正在使用pdftotext.exe。這有時會弄亂結果文本,所以我不能使用它。將PDF轉換爲不帶pdftotext的文本?

是否有另一個免費工具,我可以從另一個程序調用?我更喜歡命令行工具。

回答

3

PDF可能會非常棘手轉換取決於其如何構造文本,但你可能會從iTextSharp的或GhostScript的或商業成分如良好的效果:從www.tallcomponents.com(不隸屬於)

+0

可以iTextSharp的轉換也從PDF到TXT? – EOB 2012-01-17 14:32:21

+0

它可以提取文本,在這裏看到一個例子和其他選項:http://stackoverflow.com/questions/4711134/itextsharp-text-extraction – 2012-01-17 17:19:09

0

我發現Apache PDFBox比pdftotext好得多。它以更接近原始文檔格式的方式提取文本。它可以從命令行運行。