2017-02-10 83 views
-1

在我們公司,我們使用HDFS。到目前爲止,所有工作都已經完成,我們可以使用查詢來提取數據HDFS數據統計

在過去,我曾與Project R一起工作過很多次,對我的分析來說總是很棒。所以我檢查了Project R和HDFS(rbase,rhdfs,...)的支持。

儘管如此,我還是有點困惑,因爲我發現了大量的教程,他們使用保存在CSV文件中的簡單數據進行分析。不要誤解我的意思。這很好,但我想問問是否有可能編寫查詢,提取數據並在一次運行中進行統計。或者換句話說:當我們談論HDFS中存儲的數據的統計信息時,你如何處理這個問題?

非常感謝,希望你們中的一些人能幫我看看我的問題的優缺點。

所有最好的 - 彼得

回答

0

你可能想看看Apache HiveApache Spark。雖然還有很多其他的選擇,但我不確定當數據不是在文件中傳給您時,您是否在問如何處理來自hdfs的數據。