0
我試圖分析這些PDF「對臺軍售通知」的信件,發現這裏: http://www.dsca.mil/pressreleases/36-b/36b_index.htmPython - 解析PDF文檔中特定的標準化信息的最佳方法?
這裏有一個建議軍售阿曼的特定PDF文件的例子,: http://www.dsca.mil/pressreleases/36-b/2013/Oman13-07.pdf
因爲我有在這些文件中,我要提取的信息包括國名(阿曼),待售物品清單(「AN/AAQ-24(V)大型飛機紅外對抗系統」), (「1億美元」)和主要承包商(「伊利諾伊州Rolling Meadows的諾斯羅普·格魯曼公司」)的成本(
我可以使用什麼樣的正則表達式或split()函數規範來隔離文檔中的這些信息?
您是否檢查過這些文本信息(成本和承包商)在所有這些文檔中的顯示方式有多不同?它可能需要一個實際的AI ... – mkl