我收到以下錯誤的MapReduce工作:什麼MapReduce框架寫拆分元信息文件
工作初始化失敗:java.io.IOException異常:斯普利特元數據尺寸 超過10000000中止工作job_201511121020_1680在 org.apache.hadoop.mapreduce.split.SplitMetaInfoReader.readSplitMetaInfo(SplitMetaInfoReader.java:48) 在 org.apache.hadoop.mapred.JobInProgress.createSplits(JobInProgress.java:828) 在 org.apache.hadoop .mapred.JobInProgress.initTasks(JobInProgress.java:730) at org.apac he.hadoop.mapred.JobTracker.initJob(JobTracker.java:3775) 在 org.apache.hadoop.mapred.EagerTaskInitializationListener $ InitJob.run(EagerTaskInitializationListener.java:90) 在 java.util.concurrent.ThreadPoolExecutor中的$ Worker.runTask(ThreadPoolExecutor.java:886) 在 java.util.concurrent.ThreadPoolExecutor中的$ Worker.run(ThreadPoolExecutor.java:908) 在java.lang.Thread.run(Thread.java:662)
輸入路徑,這個工作是:/ DIR1/DIR2// /年/月/日(7天)
以下是我從調查中收集到的信息:此錯誤是由於拆分元信息大小超出限制(由mapreduce.job.split.metainfo.maxsize設置)所致。我假設這個元數據被寫入一個文件,並且它的文件大小超過了限制。
我有幾個問題:
- 該框架是否創建每個作業的一個或多個文件?
- 這個文件的內容是什麼?但是,假設輸入路徑很深,當我將輸入路徑返回的所有文件寫入文件時,其大小隻有幾MB。
任何幫助更好地理解這個錯誤表示讚賞。