來自2臺獨立機器的Hadoop日誌文件分析

我是Hadoop的新手。我必須找到用戶間交易的符號趨勢。來自2臺獨立機器的Hadoop日誌文件分析

我有2臺機器b040n10和b040n11。在機器中的文件如下提到：

b040n10:/u/ssekar>ls -lrt 
-rw-r--r-- 1 root root  482342353 Feb 8 2014 A.log 
-rw-r--r-- 1 root root  481231231 Feb 8 2014 B.log 

b040n11:/u/ssekar>ls -lrt 
-rw-r--r-- 1 root root  412312312 Feb 8 2014 C.log 
-rw-r--r-- 1 root root  412356315 Feb 8 2014 D.log

有一個名爲「SYMBOL_NAME」所有這些日誌（下面的例子）字段。

IP=145.45.34.2;***symbol_name=ABC;***timestamp=12:13:05 
IP=145.45.34.2;***symbol_name=XYZ;***timestamp=12:13:56 
IP=145.45.34.2;***symbol_name=ABC;***timestamp=12:14:56

我在我的筆記本電腦上運行Hadoop和我有2臺機器連接到我的筆記本電腦（可被用作的Datanode）。我現在的任務是獲取symbol_name和符號計數的列表。如下所述： ABC - 2 XYZ - 1

我現在應該： 1.所有文件（A.log，B.log，C.log，D.log）從b040n10複製b040n11到我的筆記本電腦， 2.發出copyFromLocal命令到HDFS系統並分析數據？

還是有沒有更好的方法來找出symbol_name和計數而不復制這些文件到我的筆記本電腦？

這個問題是一個基本的問題，但我是Hadoop的新手，請幫助我理解並使用Hadoop以獲得更好的效果。請讓我知道如果需要更多關於這個問題的信息。

感謝

來源

2014-05-15 user3370144

在嘗試解決此問題之前，如果您不喜歡閱讀某些視頻，請鼓勵您至少閱讀Hadoop權威指南的前4章關於YouTube上的hadoop或類似的。 – Sudarshan

從Hadoop的文件複製到本地的筆記本電腦違抗的Hadoop的整個目的是在處理移動到數據不的其他方式。因爲當你真的擁有「BigData」時，你將無法移動數據來在本地處理它。

你的問題是一個典型的Map/Reduce案例，你需要的是一個計算每個符號出現的工作。只要搜索地圖/減少WordCount example並將其適應您的情況

來源

2014-05-15 05:07:18 iTech

感謝您的更新。我的主要疑問是，我的服務器b040n10和服務器b040n11上的所有數據都必須放在我的筆記本電腦上，以便在數據上使用Hadoop？請幫助我瞭解如何使用Hadoop（使用我擁有的datanode）分析服務器上的大量數據。 – user3370144

您只需從膝上型計算機提交地圖/縮減作業以對抗Haddop羣集。主要思想是在每個節點上本地處理數據，然後在縮小階段之後結合結果。 – iTech

再次感謝您的回覆。請耐心等待，直到我的基本疑問被清除。另一個問題是我在我的問題中提到的服務器，服務器b040n10和服務器b040n11沒有安裝hadoop。它們只包含日誌文件（每個約250 TB）。請解釋我如何處理這種情況並使用僅安裝在筆記本電腦上的Hadoop？ – user3370144

來自2臺獨立機器的Hadoop日誌文件分析

回答

相關問題