我是Hadoop和MapReduce的新手。我有這個範圍內某些目錄和文件(每個文件10 MB大和N可能是100文件可以壓縮或解壓縮),如: MyDir1 /文件1 MyDir1 /文件2 ... MyDir1/fileN一個映射器或一個reducer來處理一個文件或目錄
MyDir2 /文件1 MyDir2 /文件2 ... MyDir3/fileN
我想設計一個MapReduce的應用程序,其中一個映射或減速將處理整個MyDir1即我不想讓MyDir1在多個映射器進行分割。同樣,我希望MyDir2可以完全由其他映射器/縮減器進行處理而不會分裂。
關於如何去做這件事的任何想法?我是否需要編寫自己的InputFormat並讀取輸入文件?
我其實有兩個相同的要求。我需要不要拆分文件,因爲文件頂部有標題信息。我需要一個每個映射器的目錄,以便我可以處理該目錄中的文件,以便排序文件(按日期/時間)比排序單個行要高效得多。 – MikeKulls 2014-08-29 04:55:55