我是一位新的hadoop開發人員,我已經能夠在單節點集羣中安裝和運行hadoop服務。數據可視化過程中出現問題。當我需要使用像Tableau這樣的數據可視化工具時,MapReduce jar文件起到了什麼作用。我有一個結構化的數據源,在這個數據源中我需要添加一層邏輯,以便數據在可視化過程中有意義。如果我要用其他工具進行可視化,是否需要編寫MapReduce程序?請澄清一下我在這個問題上可以做些什麼。Hadoop數據可視化
0
A
回答
1
這可能取決於您使用的Hadoop分佈以及存在哪些工具。這也取決於實際的數據準備任務。
如果你不想實際編寫地圖,減少或火花代碼自己,你可以使用蜂巢(這相當於映射簡化)或更快帕拉嘗試類似SQL的查詢。使用SQL,您可以創建可以輕鬆使用的表格數據(配置表)。 Tableau具有兩個連接器,可自動將您的Tableau配置/請求轉換爲Hive/Impala。因爲它的速度,我會建議與Impala連接。 如果你需要做的工作,需要更多的編程或SQL只是不夠,你可以嘗試豬。 Pig是一種高級腳本語言,可編譯映射 - 減少代碼。您可以在各自的Hue編輯器或CLI中嘗試以上所有內容。
如果你覺得上述所有仍然不適合你的使用情況,我建議寫的map-reduce或火花代碼。 Spark不需要僅用Java編寫,而且通常速度更快。
大多數工具都可以與hive表集成,這意味着您不需要重寫代碼。如果某個工具沒有提供此功能,則可以從配置單元表中進行CSV提取,也可以將表格保存爲CSV/TSV。然後,您可以在可視化工具中導入這些文件。
0
現有的答案已經觸及了這一點,但有些寬泛,所以我決定把重點放在關鍵部分:
數據可視化的典型步驟
- 不要使用任何複雜的計算您喜歡的hadoop工具
- 在(蜂巢)表中提供輸出
- 將數據提取到可視化工具(例如Tableau)的內存中,例如使用JDBC
如果數據太大而無法存入內存,您可以將其轉換爲正常的SQL數據庫,然後直接使用可視化工具進行處理。 (如果您直接在蜂房的工作,你會爲最簡單的查詢需要30秒以上發瘋。)
如果它是不可能的/需要的連接由於某種原因,你的可視化工具,解決辦法是轉儲輸出文件(例如CSV),然後將這些文件加載到可視化工具中。
相關問題
- 1. 可視化來自hadoop的xml數據
- 2. Hadoop計數器可視化
- 3. 可視化數據
- 4. 可視化數據
- 5. 數據可視化
- 6. 使用Hadoop可視化大型數據集
- 7. 可視化地理信息在hadoop
- 8. 可視化陣列數據
- 9. 軟件數據可視化
- 10. 數據可視化入門?
- 11. 數據流可視化
- 12. Material-UI數據可視化
- 13. 可視化數據矩陣
- 14. 數據可視化插件
- 15. 分析數據可視化
- 16. 可視化分層數據
- 17. Weka的數據可視化
- 18. 實時數據可視化
- 19. 數據流可視化
- 20. LINQ和數據可視化
- 21. svg數據可視化
- 22. 數據可視化與HBase
- 23. 可視化樹數據
- 24. XML數據可視化
- 25. WPF數據可視化
- 26. 數據集可視化器
- 27. Hadoop和結構化數據
- 28. Hadoop和視頻數據
- 29. 在GPU上優化數據可視化?
- 30. 可視化谷歌地圖/可視化的大量數據