我是Hadoop的新手。我必須找到用戶間交易的符號趨勢。來自2臺獨立機器的Hadoop日誌文件分析
我有2臺機器b040n10和b040n11。在機器中的文件如下提到:
b040n10:/u/ssekar>ls -lrt
-rw-r--r-- 1 root root 482342353 Feb 8 2014 A.log
-rw-r--r-- 1 root root 481231231 Feb 8 2014 B.log
b040n11:/u/ssekar>ls -lrt
-rw-r--r-- 1 root root 412312312 Feb 8 2014 C.log
-rw-r--r-- 1 root root 412356315 Feb 8 2014 D.log
有一個名爲「SYMBOL_NAME」所有這些日誌(下面的例子)字段。
IP=145.45.34.2;***symbol_name=ABC;***timestamp=12:13:05
IP=145.45.34.2;***symbol_name=XYZ;***timestamp=12:13:56
IP=145.45.34.2;***symbol_name=ABC;***timestamp=12:14:56
我在我的筆記本電腦上運行Hadoop和我有2臺機器連接到我的筆記本電腦(可被用作的Datanode)。 我現在的任務是獲取symbol_name和符號計數的列表。 如下所述: ABC - 2 XYZ - 1
我現在應該: 1.所有文件(A.log,B.log,C.log,D.log)從b040n10複製b040n11到我的筆記本電腦, 2.發出copyFromLocal命令到HDFS系統並分析數據?
還是有沒有更好的方法來找出symbol_name和計數而不復制這些文件到我的筆記本電腦?
這個問題是一個基本的問題,但我是Hadoop的新手,請幫助我理解並使用Hadoop以獲得更好的效果。請讓我知道如果需要更多關於這個問題的信息。
感謝
在嘗試解決此問題之前,如果您不喜歡閱讀某些視頻,請鼓勵您至少閱讀Hadoop權威指南的前4章關於YouTube上的hadoop或類似的。 – Sudarshan