2017-01-10 43 views
0

我們通常會以相同的格式從客戶那裏收到大量自行開票發票,我需要將其操作爲特定的Excel格式以導入到我的會計系統中。PDF以優化自定義腳本

這樣做最好的編碼語言是什麼?

感謝,

回答

0

這聽起來像棘手的部分是走出PDF的信息。爲此,您可以使用OCR。完成後,您可以使用VBA(Office自動化)將其加載到Excel中。

大多數OCR API不僅返回文本,還返回單詞的座標(邊界框)。下面是自由OCR.space OCR API一個例子:

的API輸出是這樣的JSON響應:

{ 
    "ParsedResults": [ 
    { 
     "TextOverlay": { 
     "Lines": [ 
      { 
      "Words": [ 
       { 
       "WordText": "TEXT", 
       "Left": 279, 
       "Top": 89, 
       "Height": 40, 
       "Width": 107 
       } 
      ], 
      "MaxHeight": 40, 
      "MinTop": 89 
      }, 
      { 
      "Words": [ 
       { 
       "WordText": "WALKING", 
       "Left": 233, 
       "Top": 144, 

具有相同特徵的其他API是谷歌雲願景,微軟認知服務和ABBYY。

作爲下一步,您可以解析JSON文件並查找某個x/y範圍內的信息並將其分配給Excel中的某些字段。

+0

謝謝,我會給這個去 –