0

有沒有人曾將Google Analytics數據轉移到Azure中?我已經看到了一些方法來做到這一點,但我不知道我在做什麼。 Google Analytics(分析)數據變得相當龐大,我想知道它是否最適合將其保留在谷歌存儲中,並從Azure訪問它或將它移動到HDInsight或Data Lake之類。我需要跨幾個不同的數據存儲,SQL Azure,Blob和表存儲來加入數據。我還在研究Apache Drill和Presto作爲統一數據訪問的可能解決方案。只是想看看有沒有人處理過這個問題,並有任何經驗可以分享。謝謝!Azure中的Google Analytics數據

+0

這是最適合的@ https://groups.google.com/group/presto-users –

回答

0

前言

我沒有與普雷斯托經驗,所以我只能在具有鑽這樣做的可行性評論。另外我還沒有使用Azure服務,所以我的建議是理論上的。

鑽存儲插件

鑽將讓你從不同來源的數據進行任何你想要的SQL查詢,前提是每個數據源具有存儲插件。存儲插件只是Drill中的一段代碼,它允許您與數據源進行交互。由於您關注的是對3個數據源執行查詢,因此我們需要確定這3個數據源中的每一個是否都有Storage插件。

SQL Azure的

我認爲SQL Azure的有Java的JDBC驅動程序。如果是這樣,則可以將Drill配置爲使用SQL Azure,方法是遵循these instructions

天青斑點

天青BLOB存儲具有鑽用來讀取從文件系統中的數據Hadoop的文件系統API的實現。因此,理論上您可以將hadoop-azure jar及其依賴項https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-azure/2.7.0添加到Drill的類路徑並配置Drill的DFS存儲插件以使用它。

此外,Azure Blob中的數據必須以受支持的文件格式存儲,如:json,parquet,csv或hadoop序列文件。

Azure Table中

這看起來像微軟定製的NoSQL數據庫。目前Drill不支持它。

結論

有了一定的工作量,你可以使用鑽查詢兩個SQL Azure中和BLOB數據,而不是Azure Table中。

相關問題