Q

Python - 解析PDF文檔中特定的標準化信息的最佳方法？

2013-05-15 20 views 0 likes

0

我試圖分析這些PDF「對臺軍售通知」的信件，發現這裏： http://www.dsca.mil/pressreleases/36-b/36b_index.htm Python - 解析PDF文檔中特定的標準化信息的最佳方法？

這裏有一個建議軍售阿曼的特定PDF文件的例子，： http://www.dsca.mil/pressreleases/36-b/2013/Oman13-07.pdf

因爲我有在這些文件中，我要提取的信息包括國名（阿曼），待售物品清單（「AN/AAQ-24（V）大型飛機紅外對抗系統」），（「1億美元」）和主要承包商（「伊利諾伊州Rolling Meadows的諾斯羅普·格魯曼公司」）的成本（

我可以使用什麼樣的正則表達式或split（）函數規範來隔離文檔中的這些信息？

2013-05-15 EJS

+0

您是否檢查過這些文本信息（成本和承包商）在所有這些文檔中的顯示方式有多不同？它可能需要一個實際的AI ... – mkl

A

回答

0

您需要先閱讀轉換後的文本以確定正則表達式。關於文本轉換，PDF可能會有點古怪。我會推薦通過pyPDF的ReportLabs作爲PDF解析庫的選擇。

2013-05-15 22:35:54

相關問題