首先,我是新來的Hadoop :)運行在HDFS上的特定文件/塊的map-reduce任務
我有gzip壓縮文件的大型數據集的gzip壓縮文件周圍的大小的文件(TBS每個100-500mb)。
基本上,我需要對我的map-reduce作業進行某種過濾。
我想以各種方式分析這些文件。許多這些工作只需要分析某種格式的文件(包括特定的長度,包含特定的詞等 - 各種任意的(倒置的)索引),並且爲每個作業處理整個數據集需要不合理的時間。所以我想創建指向HDFS中特定塊/文件的索引。
我可以手動生成所需的指標,但如何準確指定(千)特定的文件/塊我要處理的輸入,映射器?我能否在不將源數據讀入例如HBase的?我想要嗎?還是我解決這個問題完全錯了?
所以,如果我理解正確,你正在尋找一種方式來處理輸入路徑只是將文件的一個子集?你如何以編程方式啓動工作? – climbage
如何針對HDFS塊而不是針對不同格式(文件)運行不同的作業使您的任務更快?你能更詳細地闡述你的問題嗎? –
對不起,太模糊了。我還沒有在hadoop堆棧中感到賓至如歸,所以我知道我的術語和思維方式略有偏差。下面的例子可能有助於解釋我想要達到的目標:給定1,000,000個文件和一個索引,告訴我哪些5,000個文件包含* sunshine *這個詞,運行一個map-reduce作業,分析包含* sunshine * 。 – jkgeyti