2017-02-10 53 views
0

我正在單個節點集羣中的Hadoop 2.7.3上運行MapReduce作業。我如何計算地圖所需時間並減少此作業的任務?計算還原者hadoop花費的時間

求助 萬一它可以幫助任何人查看這個問題或面臨類似的問題。 感謝@ Shubham的答案和一點點研究,我做的事:

  1. 作業調度器已在Hadoop中2中卸下已分裂成資源管理器和應用程序的主人。
  2. 訪問的資源管理器,鍵入URL在您的瀏覽器「http://localhost:8088
  3. 要訪問的作業歷史記錄服務器(查看有關已完成了應用和作業的統計),請在您的瀏覽器的URL「 http://localhost:19888

嘗試訪問作業歷史記錄服務器時可能會遇到錯誤。它可能表明應用程序沒有歷史記錄。在這種情況下,請按照下列步驟操作:

  1. 更改的.bashrc文件

步驟:

i. In your terminal, type "nano ~/.bashrc" 
ii. Now in this file, where the other hadoop variables are written add the line 
    export HADOOP_CONFIG_DIR=/usr/local/hadoop/etc/hadoop 
iii. Exit out of nano and save the file. 
iv. Run the command "source ~/.bashrc" 

1.要啓動作業歷史記錄服務器

步驟:

i. Run the command in your terminal 
$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh --config $HADOOP_CONFIG_DIR start historyserver 
ii. Then run the command 
    jps 
You should be able to see the "JobHistoryServer" in the list 
iii. Now run the command 
netstat -ntlp | grep 19888 

回答

0

點擊資源管理器的網絡用戶界面(http://rm_http_address_host:port/)。通常情況下,網絡端口是8088.您可以爲此打到http://resourcemanager_host:8088/
在那裏你會找到所有的應用程序,如開始,運行,失敗,成功等的鏈接
點擊每個應用程序的鏈接將給你所有的統計數據(如容器數量(mappers/reducer的情況下的mapreduce),內存/ Vcor​​es使用,運行時間和更多的統計數據)。

還有很多統計資料都暴露了ResourceManager REST API的。在這裏可以找到他們https://hadoop.apache.org/docs/r2.7.3/hadoop-yarn/hadoop-yarn-site/ResourceManagerRest.html

+0

作業完成後,Web UI關閉。有沒有什麼辦法可以獲得工作完成後我可以訪問的信息(可能在某些日誌文件中) – alpha

+0

@alpha如何向羣集提交作業? –

+0

目前我正在使用Hadoop與Python進行流式處理,但我打算切換到編寫Java代碼。 @Shubham – alpha

0

您可以轉到jobtracker(默認情況下在端口50030上運行)並檢查作業詳細信息。它顯示了地圖時間和減少時間的計數器。此外,如果您對單個任務感興趣,則可以按照鏈接「分析此作業」顯示最佳和最差執行任務。

+0

作業完成後我還能得到這些信息嗎? – alpha

+0

只要你的工作追蹤器保持歷史記錄,你應該能夠看到這個信息。我不確定關於控制歷史的conifugration。 – Amit

相關問題