當您爲Hadoop的Map/Reduce部分提供不同於HDFS的存儲(如MySql服務器等)時,數據局部性功能會發生什麼變化?換句話說,我的理解是Hadoop Map/Reduce使用數據局部性來嘗試在與數據相同的節點上啓動一個映射任務,但是當數據存儲在sql服務器中時,任務節點上沒有本地數據所有數據都在sql server節點中。那麼我們在這種情況下是否會丟失數據局部性,或者數據局部性的定義是否正在發生變化?如果它改變了,新的定義是什麼?不使用HDFS時的數據局部性
回答
如果數據不在集羣中,則沒有數據位置。所有數據必須從遠程源複製。這與任務無法在包含HDFS中的數據的節點上運行的情況相同。有幾種使用遠程資源的輸入格式,包括S3,HBase和DB。如果你可以把你的數據放在HDFS中,那很好。我經常使用Mongo作爲遠程源,用於經常更新的少量數據,我對結果感到滿意。
感謝您的回覆。請給我一些關於你的意思是少量數據的想法嗎?還有,你爲這個小版本推出了多少併發映射器?我只想得到一個整體的圖景。 – iCode 2012-02-07 06:56:26
我最大的桌子在Mongo可能是20MB。我只使用1個映射器。您使用多少個映射器將依賴於您的分片。看看https://github.com/mongodb/mongo-hadoop。 – 2012-02-07 22:11:20
我應該增加這個大小,這將工作在受網絡帶寬的約束。 – 2012-02-08 02:38:32
- 1. 使用不同羣集的HDFS時的數據局部性
- 2. Spark是否使用數據局部性?
- 3. 任務數據局部性NO_PREF。何時使用?
- 4. 帕拉數據局部性
- 5. 帶Spark獨立和HDFS的數據局部
- 6. 對於數據訪問和時間局部性關於數據時間局部性取
- 7. 使用Spark + Cassandra利用數據局部性執行作業
- 8. 在Hadoop中如何利用HDFS以外的文件系統的數據局部性?
- 9. 無法使用hdfs dfs命令複製hdfs中的數據
- 10. Apache Spark數據局部性算法
- 11. 數據對齊與緩存局部性
- 12. C#數據局部性:結構數組中的引用類型
- 13. 使用spring數據寫入HDFS時的問題hadoop
- 14. 使用Solr索引HDFS數據
- 15. 使用Sqoop將數據加載到HDFS
- 16. 使用Sparkstreaming從HDFS獲取數據
- 17. 使用Storm將數據移動到HDFS
- 18. 使用Python將數據推到HDFS
- 19. Android使用數據庫中的數據膨脹線性佈局
- 20. 使用MVC時數據沒有傳入SQL Server局部視圖
- 21. 使用緩存局部性改進C函數性能?
- 22. HDFS vs GridFS:何時使用?
- 23. 使用hadoop將數據從Mysql導入hdfs時出錯?
- 24. 如何使用Avro/Parquet將實時數據寫入HDFS?
- 25. NoSuchElementException當使用sqoop從hdfs將數據導出到mysql時
- 26. 在使用實時數據庫時使用不同的RecyclerView項目佈局
- 27. 使用函數屬性字符串的局部變量的Javascript
- 28. HDFS中數據可用性的事件通知?
- 29. 使用unique_ptr緩存局部性
- 30. 關於時間局部性和空間局部性的一些問題
Hadoop的哪一部分? MapReduce的? – 2012-02-07 04:31:36
無法理解你的問題! – Debaditya 2012-02-07 04:55:43
我更新了問題。希望現在更清楚。 – iCode 2012-02-07 06:12:37