2011-07-22 29 views
0

我在Ubuntu 11.04機處理與7+萬線(〜59 MB)的文件具有這種配置:最大文件大小「僞分佈式」模式

即使經過
 
Intel(R) Core(TM)2 Duo CPU  E8135 @ 2.66GHz, 2280 MHz 
Memory: 2GB 
Disk: 100GB 

運行45分鐘,我沒有看到任何進展。

 
Deleted hdfs://localhost:9000/user/hadoop_admin/output 
packageJobJar: [/home/hadoop_admin/Documents/NLP/Dictionary/dict/drugs.csv, /usr/local/hadoop/mapper.py, /usr/local/hadoop/reducer.py, /tmp/hadoop-hadoop_admin/hadoop-unjar8773176795802479000/] [] /tmp/streamjob582836411271840475.jar tmpDir=null 
11/07/22 10:39:20 INFO mapred.FileInputFormat: Total input paths to process : 1 
11/07/22 10:39:21 INFO streaming.StreamJob: getLocalDirs(): [/tmp/hadoop-hadoop_admin/mapred/local] 
11/07/22 10:39:21 INFO streaming.StreamJob: Running job: job_201107181559_0099 
11/07/22 10:39:21 INFO streaming.StreamJob: To kill this job, run: 
11/07/22 10:39:21 INFO streaming.StreamJob: /usr/local/hadoop/bin/../bin/hadoop job -Dmapred.job.tracker=localhost:9001 -kill job_201107181559_0099 
11/07/22 10:39:21 INFO streaming.StreamJob: Tracking URL: http://localhost:50030/jobdetails.jsp?jobid=job_201107181559_0099 
11/07/22 10:39:22 INFO streaming.StreamJob: map 0% reduce 0% 

什麼是可以在pseudo distributed模式下使用Hadoop被處理的最大可能的文件大小。

更新時間:

我做使用Hadoop Streaming一個簡單的單詞計數應用。我的mapper.pyreducer.py花費了大約50 Sec來處理220K行(〜19MB)的文件。

回答

0

問題解決了,我沒有殺掉以前的工作,所以這份工作加入隊列,這就是爲什麼它延遲。我用 bin/hadoop -kill <job_id> 殺死所有未決的工作。花了~140 Sec來處理整個文件(〜59 MB)pseudo distributed mode

0

大小限制是由您擁有的可用存儲的大小決定的。爲了給你一個想法,我已經在單個節點上處理了幾個GiB大小的輸入文件(gzip壓縮的apache日誌文件),現在已經有一段時間了。唯一真正的限制是需要多少時間,如果這對你來說足夠快。