2015-07-10 29 views
0

我是Hadoop的新手,對內部存儲有疑問。據我所知,HDFS中的所有內容都存儲爲鍵/值對。現在,在Yarn的幫助下,出現了不同的技術來從RDMBS(使用Sqoop)導入不同類型的數據,如流和數據。這些數據如何在HDFS內部存儲?例如,關係表中的行以某種方式轉換爲鍵/值對?即使使用Hive和Hcatalog,您也可以創建表格並將數據加載到它們。所有這些都是在hadoop內部完成的?Hadoop中的內部存儲空間

感謝很多提前

回答

1

我不認爲數據存儲爲在HDFS鍵/值。它存儲爲普通文件以非結構化格式存儲。但是,當您運行MapReduce作業時,將根據您選擇的InputFormat將數據視爲鍵值對。例如,如果輸入格式是TextInputFormat,則鍵將是文件中數據的位置,而值將是一行數據,而當您使用不同的輸入格式時,鍵的值分配將會不同。