2015-09-16 146 views
1

我正在寫一個Python腳本來從網站拉PDF,循環他們,刮他們的文本,然後對他們進行基本的自然語言處理。Python:命令在終端,而不是os.system()

我遇到了一個奇怪的問題:如果我在終端中使用PDFMinerpdf2txt.py命令,它工作正常。相反,如果我嘗試循環在我的腳本本身的文件,像這樣:

for url in papers: 
    urllib.urlretrieve(url, DIR + "paper.pdf") 
    os.system("pdf2text.py -o paper.txt -t text paper.pdf") 

我得到以下錯誤:

sh: pdf2text.py: command not found

是否是與PATH,ENV瓦爾?我甚至不知道從哪裏開始。

我更喜歡pdf2txtslate,因爲後者導致nltk臭蟲(整個其他SO後,我猜)。

+1

它絕對看起來像一個'PATH'問題​​。使用腳本的絕對路徑。 – Barmar

+0

你不需要「** python ** pdf2text.py -o paper.txt -t text paper.pdf」 – David

+0

是不是你錯過了對python的調用? '「python pdf2text.py -o paper.txt -t text paper.pdf」' – Lucas

回答

2

問題是程序名是pdf2txt.py而不是pdf2text.py

+0

哦,我的主啊,我羞於垂頭。 –

+0

不用擔心,有時候會發生在我們所有人身上:) –