5
我正在使用mrjob處理一批文件並獲取一些統計信息。我知道我可以在一個單獨的文件運行MapReduce工作,像如何使用mrjob迭代地處理一個目錄下的所有文件
python count.py <some_input_file> output
但我怎麼能養活的文件目錄的腳本?文件目錄結構如下folder/subfolders/files
,有沒有什麼建議?
我正在使用mrjob處理一批文件並獲取一些統計信息。我知道我可以在一個單獨的文件運行MapReduce工作,像如何使用mrjob迭代地處理一個目錄下的所有文件
python count.py <some_input_file> output
但我怎麼能養活的文件目錄的腳本?文件目錄結構如下folder/subfolders/files
,有沒有什麼建議?
那麼,最後我發現我可以指定一個目錄作爲輸入路徑,Hadoop將處理該目錄中的所有文件。
另外在我的情況下,我有包含輸入文件的子目錄。 Hadoop將不會橫向傳遞目錄,並會默認引發錯誤。一個常見的技巧是使用通配符像
python count.py hdfs://master-host/directory/*/*.txt > result