我的任務是使用IBM Watson將PDF轉換爲文本文件或任何可能對我的任務有用的輸出。使用IBM Watson文檔轉換器解析PDF
PDF是由客戶創建並以各種格式發送給我們的採購訂單。客戶可以按照他們希望的方式創建這些採購訂單,我必須解析它們。
我曾嘗試只使用文檔轉換器使用默認設置,輸出是所有的地方。
任何意見接近,這將是巨大的...也許一起使用IBM沃森的情報,以便更好地發現,即使它們不與定義這些訂單所需的信息線的東西。
感謝您的任何幫助。
我的任務是使用IBM Watson將PDF轉換爲文本文件或任何可能對我的任務有用的輸出。使用IBM Watson文檔轉換器解析PDF
PDF是由客戶創建並以各種格式發送給我們的採購訂單。客戶可以按照他們希望的方式創建這些採購訂單,我必須解析它們。
我曾嘗試只使用文檔轉換器使用默認設置,輸出是所有的地方。
任何意見接近,這將是巨大的...也許一起使用IBM沃森的情報,以便更好地發現,即使它們不與定義這些訂單所需的信息線的東西。
感謝您的任何幫助。
你可以很容易地看到從IBM開發的API Reference文檔,以確保我的回答。
我假設你使用curl
,但在鏈接裏面有一些例子Nodejs
,Python
,Java
如果你想。但使用條件實際上是相同的。
檢查例如轉換方法,捲曲:
curl -X POST -u "{username}":"{password}" -F config="{\"conversion_target\":\"answer_units\"}" -F "[email protected]" "https://gateway.watsonplatform.net/document-conversion/api/v1/convert_document?version=2015-12-15"
裏面file
,你會選擇從您的文件,格式,比如:PDF
要構建own conversion
,在捲曲,替換該文件被稱爲與自己的PDF,HTML或Word文檔文件,並將config
中的"conversion_target"
替換爲要轉換爲的格式。有效值爲"answer_units"
,"normalized_html"
或"normalized_text"
。
您可以在GitHub here中看到IBM Developers的一個示例。
叉這個例子here。
在官方文檔中,你可以看到教程的文件轉換使用此服務,check here。
我想補充這一點。您在PDF中看到的並不總是電腦會看到的東西。文本可以不按順序存儲,也可以顯示圖形(屏幕截圖),而底層文本與所看到的內容無關。最快的測試方法是將文本複製/粘貼到文本編輯器中,然後查看結果。如果它不完美,轉換不太可能做得更好。 –