data-lake

7熱度

3回答

我聽說新術語Data Lake。我GOOGLE了，得到了數據湖是一個大型的存儲庫和處理引擎。數據湖爲任何類型的數據提供「大容量存儲，巨大的處理能力和處理幾乎無限的併發任務或作業的能力」術語數據湖通常與面向Hadoop的對象存儲相關聯。在這種情況下，首先將組織的數據加載到Hadoop平臺中，然後將業務分析和數據挖掘工具應用於駐留在Hadoop的商品計算機羣集節點上的數據。同樣的事情是由Hado

-4熱度

2回答

白癡的數據倉庫/數據庫/數據湖泊

你好天才（我敢說，Minkus的？）有點背景。我爲一家目前沒有數據倉庫的小型非科技公司工作。所有的數據都是從一堆資源中手動提取的（比如Facebook和twitter等不同平臺，客戶端excel數據），然後存儲在整個服務器的excel電子表格中。我正在尋找合併這些數據的方法，並將它存儲在某個地方，這將允許我訪問歷史記錄（目前我必須搜索所有的Excel表格並手動將其放回原處，或返回Faceboo

1熱度

2回答

ROWCOUNT提示是否適用於U-SQL中的EXTRACT

我想爲抽取作業分配更多頂點，嘗試使用ROWCOUNT提示，但似乎無法正常工作，無論我用於ROWCOUNT的值是什麼，U-SQL總是分配相同數量的頂點。 EXTRACT XXXX FROM @ 「路徑」 USING新RndsInDataLakeCode.PyramidExtractorMerged（） OPTION（ROWCOUNT = 50000000）; 是否有任何其他方式影響頂點分配謝謝。

0熱度

1回答

針對Data Lake架構的AWS中的數據目錄和元數據管理

我們正在基於Data Lake架構鬆散地設置數據平臺。我們正在評估提供中央數據目錄和元數據管理和標記的候選人。膠看起來非常有前途的，但它仍然沒有脫離大衆消費，所以我們看着地水線 Zaloni 地面是相當DYI。看來我們必須廣泛地擴展它以使其適用於我們。（從S3清除，寫入泰坦）水線和Zaloni是包裝完整的解決方案，可能不是我們正在尋找的解決方案，因爲我們更喜歡開源解決方案。我們應該尋找哪

1熱度

1回答

AWS Data Lake Dynamo與ElasticSearch

我非常努力地瞭解如何使用Dynamo/ElasticSearch來支持AWS數據湖工作（元數據/目錄）。看起來好像您會在Dynamo中記錄您的zip歸檔文件的各個S3位置以及您希望在ES中搜索的任何其他元數據/屬性。如果這是正確的，你將如何使用這兩者來支持這一點。我試圖找到更詳細的信息，關於如何正確地將兩者配對在一起，但一直不成功。其他人擁有的任何信息/文檔都會很棒。很好的機會，我忽略了一些明顯的

1熱度

1回答

流媒體應用程序的時間序列窗口

我們正在開發使用Kafka，storm和redis的數據管道應用程序。來自不同系統的實時事件將發佈給Kafka，風暴根據配置的規則進行事件處理。狀態由redis管理。我們有不同的事件處理之前實現不同WAIT_TIME的要求。我們正在尋找以下選項。我們最初看着風暴窗[滑動或翻滾窗口]，但提供選項僅配置固定的時間間隔。我們需要基於規則的不同wait_time 我們正在探索將事件存儲在redis緩存