我想要測量在Hadoop中執行I/O(從HDFS讀取)時映射和減少所花費的時間。我正在使用紗線。 Hadoop 2.6.0。 這有什麼選擇?在Hadoop中從HDFS讀取時的I/O時間
回答
一個粗略的估計可能是創建自定義計數器。對於mapper和reducer,您可以在mapper(或reducer)開始處理和結束時收集時間戳。從開始和結束時間戳開始,計算並將其添加到自定義計數器,即映射器將添加到MAPPER_RUNNING_TIME
,並將縮減器添加到REDUCER_RUNNING_TIME
(或任何您想要給它的名稱)。執行完成後,分別從MILLIS_MAPS
和MILLIS_REDUCES
中減去計數器的總計值。您可能需要查看Hadoop源代碼,以確認是否將登臺時間包含在MILLIS_MAPS
和MILLIS_REDUCES
中。有了這個估計,你需要考慮到這些任務正在同時執行,所以時間將會相當全面(或者對所有映射器和縮減器進行彙總)。
我個人沒有這樣做,但我認爲這個解決方案可以工作,除非你找到更好的解決方案。
您提出的解決方案聽起來不錯。我發現MILLIS_MAPS =所有地圖花費的總時間(毫秒)。我想知道這是否也包括隊列等待時間。這個階段意味着什麼。 – AlexandruC
@AlexandruC。不幸的是,我無法幫助你進一步解釋,因爲它需要我通過源代碼並搜索它是如何計算的,這可能相當耗時。 – Serhiy
你沒有必要這樣做。我會做的。 – AlexandruC
- 1. 嘗試從Hdfs輸出讀取hadoop
- 2. Hadoop寫入/讀取int []從/到HDFS
- 3. Hadoop JUnit測試從hdfs寫入/讀取hdfs
- 4. 從HDFS讀取文件時出現MalformedURLException
- 5. namenode.LeaseExpiredException while df.write.parquet從非hdfs源讀取時
- 6. 當讀取hadoop時java.lang.NoClassDefFoundError SequenceFile
- 7. 如何獲得的火花從HDFS中讀取數據的時間成本
- 8. Hadoop MapReduce映射程序任務從HDFS或S3讀取輸入文件的時間
- 9. 如何使用Ruby在Hadoop HDFS中寫入/讀取文件?
- 10. Cloudera Hadoop:在HDFS中讀取/寫入文件
- 11. R + Hadoop:如何從HDFS讀取CSV文件並執行mapreduce?
- 12. 循環讀取和從外部讀取hadoop HDFS文件Java應用程序
- 13. 使用java讀取hadoop的datanode中的hdfs blk_.meta文件
- 14. Hadoop HDFS:讀取正在編寫的序列文件
- 15. 從pyspark讀取hdfs中的文件
- 16. 何時由hadoop加載hdfs-site.xml?
- 17. Boto3從Kinesis流中讀取時間戳
- 18. Flume中的HDFS IO錯誤
- 19. 從HDFS中讀取到Spark中
- 20. hadoop HDFS中是否存在
- 21. Perl IO :: Socket/IO :: Select - 從「準備讀取」套接字讀取
- 22. 從hadoop hdfs數據搜索
- 23. 從Hadoop文件系統中的分佈式緩存讀取時發生IO異常?
- 24. 從Hadoop分佈式緩存中讀取文件時FileNotFoundExcepton
- 25. 在java中獲取基於時間戳的HDFS文件
- 26. OPCDA讀取時間
- 27. 在超時時間從python的USB鍵盤讀取
- 28. Cassandra在AWS上讀取超時時間
- 29. HDFS中Hadoop塊的概念
- 30. hadoop mapreduce在hdfs中打開臨時文件
我有HTrace工作,你用過它嗎?我想知道如何劃分我需要的信息.. – AlexandruC