每個cachedDistributed文件在map-reduce程序中有多少開銷?我有一個mapreduce程序,其中我需要有50個cachedDistributed文件(非常小的尺寸),看起來它們的開銷遠遠大於我只有1個cachedDistributed文件的情況。真的嗎? 據我瞭解,cachedDistributed文件複製到每臺運行映射器的機器,因此對cachedDistributed文件的訪問是本地的,不應該有太多的開銷。一個cachedDistributed文件在一個mapreduce程序中有多少開銷?
0
A
回答
0
我想你可能會嘗試使用存檔文件(文件在任務節點上自動取消存檔)。 您可以通過存檔文件添加到DistributedCache是指:
藉助工具使用
GenericOptionsParser
。然後,您可以將要分發的文件指定爲以逗號分隔的URI列表作爲-archives
選項的參數。如果您未指定方案,則假定這些文件是本地文件。所以,當你啓動作業,本地文件複製到文件系統分佈(往往HDFS)$> hadoop jar foo.jar ClassUsingDistributedCacheFile -archives archive.jar input output
與分佈式緩存API(見的Javadoc)。通過API,通過URI中指定的文件必須在共享文件系統(因此Java API不會複製該文件。
運行任務之前,向TaskTracker副本從分佈式文件系統中的文件就像你說的那樣,我認爲這個開銷來自檢索HDFS中的所有小文件
相關問題
- 1. 統計一個文件夾中有多少個文件
- 2. @synchronized(self)有多少開銷?
- 3. 確定一個zip中有多少個文件
- 4. 多個應用程序文件在一個Android應用程序
- 5. Android:運行一個空方法會產生多少開銷?
- 6. 多少個線程在一個循環
- 7. 多少功能是有在HTML中嵌入一個.XLSM文件
- 8. 在一個類中包裝字節[]以減少內存開銷
- 9. 在OMEdit中打開多個文件時關閉一個文件
- 10. 無法在同一個python程序中打開多個csv文件
- 11. 在Android中,一個活動可以有多少個線程?
- 12. 有多少個會話對象,一個應用程序端點?
- 13. 有沒有辦法選擇一個程序來打開一個壓縮文件?
- 14. 有多少文本可以放入一個string.xml文件中?
- 15. 在一個應用程序中打開文本文件
- 16. 帶有一系列字典的plist文件的內存開銷是多少?
- 17. 我應該在一個文件中放入多少個類?
- 18. 如何創建一個程序來檢查文件夾中有多少個txt文件?
- 19. Apache Cordova添加到應用程序有多少開銷?
- 20. 一個文件中有多個PHP類
- 21. 在JSF應用程序中有多少個ELResolver與一個ELContext相關聯?
- 22. 如何算一個字有多少次出現在一個txt文件
- 23. 如何查找一個zlib文件中有多少個zlib文件?
- 24. 一個網站有多少個html文件?
- 25. 多少表開銷太多?
- 26. MapReduce一對多處理多個輸入文件
- 27. 在一個程序中的多個WebBrowsers
- 28. 在我的一個Java例程中打開的文件過多
- 29. 減少線程上下文的開銷,在多線程應用程序
- 30. 展開一個textarea取決於它有多少文本(jQuery)