如何使用mrjob迭代地處理一個目錄下的所有文件

我正在使用mrjob處理一批文件並獲取一些統計信息。我知道我可以在一個單獨的文件運行MapReduce工作，像如何使用mrjob迭代地處理一個目錄下的所有文件

python count.py <some_input_file> output

但我怎麼能養活的文件目錄的腳本？文件目錄結構如下folder/subfolders/files，有沒有什麼建議？

那麼，最後我發現我可以指定一個目錄作爲輸入路徑，Hadoop將處理該目錄中的所有文件。

另外在我的情況下，我有包含輸入文件的子目錄。 Hadoop將不會橫向傳遞目錄，並會默認引發錯誤。一個常見的技巧是使用通配符像

python count.py hdfs://master-host/directory/*/*.txt > result

2012-12-07 12:48:20

回答