2017-03-06 56 views
0

我想用grep在S3/AWS &一個zip文件輸出寫入到一個新的位置,相同的文件名zgrep在Hadoop的流

我下面使用S3上,這是寫的正確方法從第一個CAT命令輸出到hdfs輸出?

hadoop fs -cat s3://analytics/LZ/2017/03/03/test_20170303-000000.tar.gz | zgrep -a -E '*word_1*|*word_2*|word_3|word_4' | hadoop fs -put - s3://prod/project/test/test_20170303-000000.tar.gz 

回答

0
  1. 鑑於你在玩用Hadoop,爲什麼不能在集羣中運行的代碼?掃描.gzip文件中的字符串很常見,但我不知道.tar文件。
  2. 我親自使用-copyToLocal-copyFromLocal命令將其複製到本地FS並在那裏工作。 -cat之類的問題在於很多Hadoop客戶端代碼被註銷,所以管道可能會撿到太多無關的東西,