我正在尋找一個PDF庫,它將允許我從PDF文檔中提取文本。我看了PyPDF,這可以很好地從PDF文檔中提取文本。問題在於,如果文檔中有表格,則表格中的文本將與文檔文本的其餘部分一起提取。這可能會產生問題,因爲它會產生無用的文本部分,並且看起來亂碼(例如,將大量數字拼湊在一起)。高級PDF解析使用Python(提取沒有表等的文本):什麼是最好的圖書館?
我在找東西是更先進一點。我想從PDF文檔中提取文本,排除任何表格和特殊格式。有沒有這樣的圖書館?還是我不得不對輸出文本做一些後處理來擺脫這些部分?
PDFMiner看起來很有趣。我能夠使用它的XML輸出,然後解析它,忽略我不想要的內容。這仍然需要大量的後處理,但現在它可能是最好的解決方案。謝謝。 – 2009-12-09 17:25:26
@Etienne,如果PDF還有其他語言字符,可以使用它嗎? – 2014-07-06 20:10:38
它應該與其他語言字符一起使用。 Docs提及:CJK語言和垂直編寫腳本支持。最好的方式來確定,測試它! – Etienne 2014-07-07 17:57:34