2012-09-24 12 views
6

我正在編寫一個外部腳本來通過筆記本電腦上的Python mrjob模塊(不在Amazon Elastic Compute Cloud或任何大型羣集上)運行mapreduce作業。如何爲Python中的運動員指定輸入文件?

我從mrjob documentation讀取,我應該使用MRJob.make_runner()從一個單獨的python腳本運行mapreduce作業,如下所示。

mr_job = MRYourJob(args=['-r', 'emr']) 
with mr_job.make_runner() as runner: 
    ... 

但是,如何指定要使用哪個輸入文件?我想在我的mapreduce腳本和運行map reduce的其他python腳本所在的目錄中使用文件「datalines.txt」。此外,如何指定輸出?

我在mrjob文檔中找不到允許指定這些參數的函數。

回答

5

Getting started guide表明輸入從在命令行提供標準輸入或文件中讀取:

mr_job = MRYourJob(args=["datalines.txt"])