我正在寫一個Python腳本來從網站拉PDF,循環他們,刮他們的文本,然後對他們進行基本的自然語言處理。Python:命令在終端,而不是os.system()
我遇到了一個奇怪的問題:如果我在終端中使用PDFMiner的pdf2txt.py
命令,它工作正常。相反,如果我嘗試循環在我的腳本本身的文件,像這樣:
for url in papers:
urllib.urlretrieve(url, DIR + "paper.pdf")
os.system("pdf2text.py -o paper.txt -t text paper.pdf")
我得到以下錯誤:
sh: pdf2text.py: command not found
是否是與PATH,ENV瓦爾?我甚至不知道從哪裏開始。
我更喜歡pdf2txt
比slate
,因爲後者導致nltk
臭蟲(整個其他SO後,我猜)。
它絕對看起來像一個'PATH'問題。使用腳本的絕對路徑。 – Barmar
你不需要「** python ** pdf2text.py -o paper.txt -t text paper.pdf」 – David
是不是你錯過了對python的調用? '「python pdf2text.py -o paper.txt -t text paper.pdf」' – Lucas