6
我正在編寫一個外部腳本來通過筆記本電腦上的Python mrjob模塊(不在Amazon Elastic Compute Cloud或任何大型羣集上)運行mapreduce作業。如何爲Python中的運動員指定輸入文件?
我從mrjob documentation讀取,我應該使用MRJob.make_runner()
從一個單獨的python腳本運行mapreduce作業,如下所示。
mr_job = MRYourJob(args=['-r', 'emr'])
with mr_job.make_runner() as runner:
...
但是,如何指定要使用哪個輸入文件?我想在我的mapreduce腳本和運行map reduce的其他python腳本所在的目錄中使用文件「datalines.txt」。此外,如何指定輸出?
我在mrjob文檔中找不到允許指定這些參數的函數。