2014-05-15 43 views
0

我是Hadoop的新手。我必須找到用戶間交易的符號趨勢。來自2臺獨立機器的Hadoop日誌文件分析

我有2臺機器b040n10和b040n11。在機器中的文件如下提到:

b040n10:/u/ssekar>ls -lrt 
-rw-r--r-- 1 root root  482342353 Feb 8 2014 A.log 
-rw-r--r-- 1 root root  481231231 Feb 8 2014 B.log 

b040n11:/u/ssekar>ls -lrt 
-rw-r--r-- 1 root root  412312312 Feb 8 2014 C.log 
-rw-r--r-- 1 root root  412356315 Feb 8 2014 D.log 

有一個名爲「SYMBOL_NAME」所有這些日誌(下面的例子)字段。

IP=145.45.34.2;***symbol_name=ABC;***timestamp=12:13:05 
IP=145.45.34.2;***symbol_name=XYZ;***timestamp=12:13:56 
IP=145.45.34.2;***symbol_name=ABC;***timestamp=12:14:56 

我在我的筆記本電腦上運行Hadoop和我有2臺機器連接到我的筆記本電腦(可被用作的Datanode)。 我現在的任務是獲取symbol_name和符號計數的列表。 如下所述: ABC - 2 XYZ - 1

我現在應該: 1.所有文件(A.log,B.log,C.log,D.log)從b040n10複製b040n11到我的筆記本電腦, 2.發出copyFromLocal命令到HDFS系統並分析數據?

還是有沒有更好的方法來找出symbol_name和計數而不復制這些文件到我的筆記本電腦?

這個問題是一個基本的問題,但我是Hadoop的新手,請幫助我理解並使用Hadoop以獲得更好的效果。請讓我知道如果需要更多關於這個問題的信息。

感謝

+0

在嘗試解決此問題之前,如果您不喜歡閱讀某些視頻,請鼓勵您至少閱讀Hadoop權威指南的前4章關於YouTube上的hadoop或類似的。 – Sudarshan

回答

0

從Hadoop的文件複製到本地的筆記本電腦違抗的Hadoop的整個目的是在處理移動到數據的其他方式。因爲當你真的擁有「BigData」時,你將無法移動數據來在本地處理它。

你的問題是一個典型的Map/Reduce案例,你需要的是一個計算每個符號出現的工作。只要搜索地圖/減少WordCount example並將其適應您的情況

+0

感謝您的更新。我的主要疑問是,我的服務器b040n10和服務器b040n11上的所有數據都必須放在我的筆記本電腦上,以便在數據上使用Hadoop?請幫助我瞭解如何使用Hadoop(使用我擁有的datanode)分析服務器上的大量數據。 – user3370144

+0

您只需從膝上型計算機提交地圖/縮減作業以對抗Haddop羣集。主要思想是在每個節點上本地處理數據,然後在縮小階段之後結合結果。 – iTech

+0

再次感謝您的回覆。請耐心等待,直到我的基本疑問被清除。 另一個問題是我在我的問題中提到的服務器,服務器b040n10和服務器b040n11沒有安裝hadoop。它們只包含日誌文件(每個約250 TB)。請解釋我如何處理這種情況並使用僅安裝在筆記本電腦上的Hadoop? – user3370144