計算還原者hadoop花費的時間

我正在單個節點集羣中的Hadoop 2.7.3上運行MapReduce作業。我如何計算地圖所需時間並減少此作業的任務？計算還原者hadoop花費的時間

求助萬一它可以幫助任何人查看這個問題或面臨類似的問題。感謝@ Shubham的答案和一點點研究，我做的事：

作業調度器已在Hadoop中2中卸下已分裂成資源管理器和應用程序的主人。
訪問的資源管理器，鍵入URL在您的瀏覽器「http://localhost:8088」
要訪問的作業歷史記錄服務器（查看有關已完成了應用和作業的統計），請在您的瀏覽器的URL「 http://localhost:19888「

嘗試訪問作業歷史記錄服務器時可能會遇到錯誤。它可能表明應用程序沒有歷史記錄。在這種情況下，請按照下列步驟操作：

更改的.bashrc文件

步驟：

i. In your terminal, type "nano ~/.bashrc" 
ii. Now in this file, where the other hadoop variables are written add the line 
    export HADOOP_CONFIG_DIR=/usr/local/hadoop/etc/hadoop 
iii. Exit out of nano and save the file. 
iv. Run the command "source ~/.bashrc"

1.要啓動作業歷史記錄服務器

步驟：

i. Run the command in your terminal 
$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh --config $HADOOP_CONFIG_DIR start historyserver 
ii. Then run the command 
    jps 
You should be able to see the "JobHistoryServer" in the list 
iii. Now run the command 
netstat -ntlp | grep 19888

來源

2017-02-10 alpha

點擊資源管理器的網絡用戶界面（http://rm_http_address_host:port/）。通常情況下，網絡端口是8088.您可以爲此打到http://resourcemanager_host:8088/。
在那裏你會找到所有的應用程序，如開始，運行，失敗，成功等的鏈接
點擊每個應用程序的鏈接將給你所有的統計數據（如容器數量（mappers/reducer的情況下的mapreduce），內存/ Vcores使用，運行時間和更多的統計數據）。

還有很多統計資料都暴露了ResourceManager REST API的。在這裏可以找到他們https://hadoop.apache.org/docs/r2.7.3/hadoop-yarn/hadoop-yarn-site/ResourceManagerRest.html

來源

2017-02-10 17:04:11

作業完成後，Web UI關閉。有沒有什麼辦法可以獲得工作完成後我可以訪問的信息（可能在某些日誌文件中） – alpha

@alpha如何向羣集提交作業？ –

目前我正在使用Hadoop與Python進行流式處理，但我打算切換到編寫Java代碼。 @Shubham – alpha

您可以轉到jobtracker（默認情況下在端口50030上運行）並檢查作業詳細信息。它顯示了地圖時間和減少時間的計數器。此外，如果您對單個任務感興趣，則可以按照鏈接「分析此作業」顯示最佳和最差執行任務。

來源

2017-02-10 16:55:29 Amit

作業完成後我還能得到這些信息嗎？ – alpha

只要你的工作追蹤器保持歷史記錄，你應該能夠看到這個信息。我不確定關於控制歷史的conifugration。 – Amit

計算還原者hadoop花費的時間

回答

相關問題