2013-05-15 20 views
0

我試圖分析這些PDF「對臺軍售通知」的信件,發現這裏: http://www.dsca.mil/pressreleases/36-b/36b_index.htmPython - 解析PDF文檔中特定的標準化信息的最佳方法?

這裏有一個建議軍售阿曼的特定PDF文件的例子,: http://www.dsca.mil/pressreleases/36-b/2013/Oman13-07.pdf

因爲我有在這些文件中,我要提取的信息包括國名(阿曼),待售物品清單(「AN/AAQ-24(V)大型飛機紅外對抗系統」), (「1億美元」)和主要承包商(「伊利諾伊州Rolling Meadows的諾斯羅普·格魯曼公司」)的成本(

我可以使用什麼樣的正則表達式或split()函數規範來隔離文檔中的這些信息?

+0

您是否檢查過這些文本信息(成本和承包商)在所有這些文檔中的顯示方式有多不同?它可能需要一個實際的AI ... – mkl

回答

0

您需要先閱讀轉換後的文本以確定正則表達式。關於文本轉換,PDF可能會有點古怪。我會推薦通過pyPDF的ReportLabs作爲PDF解析庫的選擇。