2017-04-25 51 views
0

我讀大數據和Hadoop教程,我發現在HDFS這2點低延遲的數據訪問,Hadoop的

流數據訪問:的時間來閱讀整個數據集更重要而不是閱讀第一個的潛伏期。 HDFS基於一次寫入和多次讀取模式。

&

低延遲數據訪問:的應用程序需要很短的時間來訪問的第一個數據不應該使用HDFS,因爲它給予,而不是時間來獲取第一重視整個數據記錄。

我很困惑,因爲第一次一個人說的時間來閱讀整個數據集,更重要的和第二個說:...不應該使用HDFS,因爲它是給予整個數據

重要性我不明白什麼是預期的?我是Hadoop的新手。

回答

0

流數據訪問:

HDFS是基於原則 的主要焦點是讀取完整的數據,最快的方式設定比服用更重要「寫一次,讀了很多次。」從數據集中獲取單個記錄的時間。

作爲每Hadoop的:通用引導

MapReduce的基本上是一個批處理系統,並且不適合於交互式分析。您無法運行查詢並在幾秒鐘或更短時間內得到結果。查詢通常需要幾分鐘或更長時間,所以最好是離線使用,在處理循環中沒有人員坐在等待結果。

MapReduce非常適合需要以批處理方式分析整個數據集的問題。 RDBMS適用於點查詢或更新,其中數據集已被索引以提供相對較少數據量的低延遲檢索和更新時間。 MapReduce適用於數據一次寫入和多次讀取的應用程序,而關係數據庫適用於不斷更新的數據集。

延遲:請參考下面這個What is low latency access of data?