2015-03-03 51 views
-2

客戶要求我從存儲在保存在保存在保管箱中的zip存檔的pdf文件中提取文本。我想知道如何(以及是否有可能)使用PowerShell訪問這些文件。 (我已閱讀過有關可用於訪問Dropbox中的東西的API,但不知道如何將其集成到PowerShell腳本中)。理想情況下,我最好避免下載它們,因爲其中大約有7000個。我想要的是一個腳本,可以在Dropbox中在線閱讀這些文件的內容,然後將相關數據(文本)處理成電子表格。如何從保存在Dropbox上的zip文件中使用PowerShell提取文本?

只是爲了重申 - (i)是否可以從存儲在zip存檔中的Dropbox(及其中的文本)訪問pdf文件,以及(ii)如何使用PowerShell來解決此問題 - 什麼類型的腳本/指令是否需要編寫

注意:我仍然找到PowerShell的方法,所以我很難詳細說明 - 但是,當我變得更熟悉時,我會很高興地更新這篇文章。對Dropbox的

+0

如果您'如果你能給我寫一個有用的解釋,那會很好。但顯然,獲得上述答案會更有幫助,或者至少可以指出類似的問題。 – CodeMaster 2015-03-03 11:20:02

+0

最好的猜測是,你會問_initially_一個完整的解決方案,沒有特定的問題,我們可以幫助你。 SO不是代碼寫入服務。你說你只想要朝正確的方向推進。這對你可能會有用,對社區來說長期來說不是一個好問題。 – Matt 2015-03-03 13:35:39

+0

感謝您的評論。這個問題涉及編寫代碼 - 正則表達式和PowerShell腳本,而主題不是SO,它是數據提取。對於我來說,目前仍然很棘手,因爲我仍然在學習PowerShell,但我會很高興地這樣做,因爲當我瞭解更多時。 – CodeMaster 2015-03-03 14:04:01

回答

0

唯一正式支持的編程接口是Dropbox的API:

https://www.dropbox.com/developers

它不會讓你訪問文件的內容,例如,使用/文件(GET):

https://www.dropbox.com/developers/core/docs#files-GET

但是,它不提供任何遠程與zip文件內容交互的功能。 (Dropbox只是將zip文件視爲任何其他文件的數據blob)。既然如此,正是你想要的是不可能的,因爲你無法首先查看zip文件,而無需先下載它們。 (同樣,即使PDF文件不在zip文件中,Dropbox API當前也沒有提供任何能夠遠程搜索PDF文件中的文本的功能,但您仍然需要下載它們。)

相關問題