0
我使用Apache Tika從URL中提取PDF內容,並將Tika發現的結果傳遞給Python腳本。我能夠獲得正確的內容,但我也希望能夠獲取我解析的網址。例如,運行:如何獲取傳遞給Python腳本的數據的源名稱?
java -jar /usr/local/tika-1.7/tika-app/target/tika-app-1.7.jar -J -t https://somewebsite.com/a_pdf_document.pdf | ./my_script.py
傳遞
[{"Content-Length":"1121070","Content-Type":"application/pdf","Creation-Date":"2014-11-13T12:39:52Z","Keywords": ... ]
到my_script.py
。但是,我也希望能夠訪問管道文件的位置,例如, https://somewebsite.com/a_pdf_document.pdf
。
由於我管道的數據,sys.argv
將無法正常工作。我錯過了什麼可以做到這一點?
沒有。您需要將其存儲在環境中的某個位置,或者將其作爲參數傳遞給python,與管道數據分開,或者使用分隔符或其他方式將其發送到管道數據中。 – 2015-02-05 21:56:10
好的,謝謝你的迴應 - 如果必須的話,我可以將它添加爲arg。 – JennyDanger 2015-02-05 21:57:51