0
我有一些我想從hdfs中提取的字段。如何加速通過流式傳輸探索HDFS中的數據?
目前我在做hadoop fs -text /path/to/20120903/*-* 2>/dev/null | awk -F '\t' '{ print $16 }' | sort | uniq > users-0903
。
我怎麼能加快這一點(需要做到這一點0904,0905 ...這需要一些時間)?
我有一些Hadoop流嘗試,但它似乎不喜歡我給它的大部分腳本,所以我放棄了。你將如何使用流式傳輸來嘗試這個任務?
感謝提及隱式洗牌/排序。 – exic