2015-02-05 33 views
0

我使用Apache Tika從URL中提取PDF內容,並將Tika發現的結果傳遞給Python腳本。我能夠獲得正確的內容,但我也希望能夠獲取我解析的網址。例如,運行:如何獲取傳遞給Python腳本的數據的源名稱?

java -jar /usr/local/tika-1.7/tika-app/target/tika-app-1.7.jar -J -t https://somewebsite.com/a_pdf_document.pdf | ./my_script.py 

傳遞

[{"Content-Length":"1121070","Content-Type":"application/pdf","Creation-Date":"2014-11-13T12:39:52Z","Keywords": ... ] 

my_script.py。但是,我也希望能夠訪問管道文件的位置,例如, https://somewebsite.com/a_pdf_document.pdf

由於我管道的數據,sys.argv將無法​​正常工作。我錯過了什麼可以做到這一點?

+2

沒有。您需要將其存儲在環境中的某個位置,或者將其作爲參數傳遞給python,與管道數據分開,或者使用分隔符或其他方式將其發送到管道數據中。 – 2015-02-05 21:56:10

+0

好的,謝謝你的迴應 - 如果必須的話,我可以將它添加爲arg。 – JennyDanger 2015-02-05 21:57:51

回答

3

否管道數據沒有名稱。

你有幾個選擇。

  1. 您可以將文件名作爲參數傳遞給python腳本。
  2. 您可以將文件名存儲在環境中。
  3. 您可以傳遞文件名作爲管道數據的一部分(帶有分隔符)。
相關問題