2017-02-06 127 views
0

我是一位新的hadoop開發人員,我已經能夠在單節點集羣中安裝和運行hadoop服務。數據可視化過程中出現問題。當我需要使用像Tableau這樣的數據可視化工具時,MapReduce jar文件起到了什麼作用。我有一個結構化的數據源,在這個數據源中我需要添加一層邏輯,以便數據在可視化過程中有意義。如果我要用其他工具進行可視化,是否需要編寫MapReduce程序?請澄清一下我在這個問題上可以做些什麼。Hadoop數據可視化

回答

1

這可能取決於您使用的Hadoop分佈以及存在哪些工具。這也取決於實際的數據準備任務。

如果你不想實際編寫地圖,減少或火花代碼自己,你可以使用蜂巢(這相當於映射簡化)或更快帕拉嘗試類似SQL的查詢。使用SQL,您可以創建可以輕鬆使用的表格數據(配置表)。 Tableau具有兩個連接器,可自動將您的Tableau配置/請求轉換爲Hive/Impala。因爲它的速度,我會建議與Impala連接。 如果你需要做的工作,需要更多的編程或SQL只是不夠,你可以嘗試。 Pig是一種高級腳本語言,可編譯映射 - 減少代碼。您可以在各自的Hue編輯器或CLI中嘗試以上所有內容。

如果你覺得上述所有仍然不適合你的使用情況,我建議寫的map-reduce火花代碼。 Spark不需要僅用Java編寫,而且通常速度更快。

大多數工具都可以與hive表集成,這意味着您不需要重寫代碼。如果某個工具沒有提供此功能,則可以從配置單元表中進行CSV提取,也可以將表格保存爲CSV/TSV。然後,您可以在可視化工具中導入這些文件。

0

現有的答案已經觸及了這一點,但有些寬泛,所以我決定把重點放在關鍵部分:

數據可視化的典型步驟

  1. 不要使用任何複雜的計算您喜歡的hadoop工具
  2. 在(蜂巢)表中提供輸出
  3. 將數據提取到可視化工具(例如Tableau)的內存中,例如使用JDBC

如果數據太大而無法存入內存,您可以將其轉換爲正常的SQL數據庫,然後直接使用可視化工具進行處理。 (如果您直接在蜂房的工作,你會爲最簡單的查詢需要30秒以上發瘋。)


如果它是不可能的/需要的連接由於某種原因,你的可視化工具,解決辦法是轉儲輸出文件(例如CSV),然後將這些文件加載​​到可視化工具中。