2017-05-04 62 views
0

我的任務是使用IBM Watson將PDF轉換爲文本文件或任何可能對我的任務有用的輸出。使用IBM Watson文檔轉換器解析PDF

PDF是由客戶創建並以各種格式發送給我們的採購訂單。客戶可以按照他們希望的方式創建這些採購訂單,我必須解析它們。

我曾嘗試只使用文檔轉換器使用默認設置,輸出是所有的地方。

任何意見接近,這將是巨大的...也許一起使用IBM沃森的情報,以便更好地發現,即使它們不與定義這些訂單所需的信息線的東西。

感謝您的任何幫助。

回答

3

你可以很容易地看到從IBM開發的API Reference文檔,以確保我的回答。

我假設你使用curl,但在鏈接裏面有一些例子NodejsPython,Java如果你想。但使用條件實際上是相同的

檢查例如轉換方法,捲曲:

curl -X POST -u "{username}":"{password}" -F config="{\"conversion_target\":\"answer_units\"}" -F "[email protected]" "https://gateway.watsonplatform.net/document-conversion/api/v1/convert_document?version=2015-12-15" 

裏面file,你會選擇從您的文件,格式,比如:PDF 要構建own conversion,在捲曲,替換該文件被稱爲與自己的PDF,HTML或Word文檔文件,並將config中的"conversion_target"替換爲要轉換爲的格式。有效值爲"answer_units","normalized_html""normalized_text"

  • 您可以在GitHub here中看到IBM Developers的一個示例。

  • 叉這個例子here

  • 在官方文檔中,你可以看到教程的文件轉換使用此服務,check here

+2

我想補充這一點。您在PDF中看到的並不總是電腦會看到的東西。文本可以不按順序存儲,也可以顯示圖形(屏幕截圖),而底層文本與所看到的內容無關。最快的測試方法是將文本複製/粘貼到文本編輯器中,然後查看結果。如果它不完美,轉換不太可能做得更好。 –