data-lake

    7熱度

    3回答

    我聽說新術語Data Lake。我GOOGLE了,得到了 數據湖是一個大型的存儲庫和處理引擎。數據湖爲任何類型的數據提供「大容量存儲,巨大的處理能力和處理幾乎無限的併發任務或作業的能力」 術語數據湖通常與面向Hadoop的對象存儲相關聯。在這種情況下,首先將組織的數據加載到Hadoop平臺中,然後將業務分析和數據挖掘工具應用於駐留在Hadoop的商品計算機羣集節點上的數據。 同樣的事情是由Hado

    -4熱度

    2回答

    你好天才(我敢說,Minkus的?) 有點背景。我爲一家目前沒有數據倉庫的小型非科技公司工作。所有的數據都是從一堆資源中手動提取的(比如Facebook和twitter等不同平臺,客戶端excel數據),然後存儲在整個服務器的excel電子表格中。 我正在尋找合併這些數據的方法,並將它存儲在某個地方,這將允許我訪問歷史記錄(目前我必須搜索所有的Excel表格並手動將其放回原處,或返回Faceboo

    1熱度

    2回答

    我想爲抽取作業分配更多頂點,嘗試使用ROWCOUNT提示,但似乎無法正常工作,無論我用於ROWCOUNT的值是什麼,U-SQL總是分配相同數量的頂點。 EXTRACT XXXX FROM @ 「路徑」 USING新RndsInDataLakeCode.PyramidExtractorMerged() OPTION(ROWCOUNT = 50000000); 是否有任何其他方式影響頂點分配 謝謝。

    0熱度

    1回答

    我們正在基於Data Lake架構鬆散地設置數據平臺。我們正在評估提供中央數據目錄和元數據管理和標記的候選人。膠看起來非常有前途的,但它仍然沒有脫離大衆消費,所以我們看着 地 水線 Zaloni 地面是相當DYI。看來我們必須廣泛地擴展它以使其適用於我們。 (從S3清除,寫入泰坦) 水線和Zaloni是包裝完整的解決方案,可能不是我們正在尋找的解決方案,因爲我們更喜歡開源解決方案。 我們應該尋找哪

    1熱度

    1回答

    我非常努力地瞭解如何使用Dynamo/ElasticSearch來支持AWS數據湖工作(元數據/目錄)。看起來好像您會在Dynamo中記錄您的zip歸檔文件的各個S3位置以及您希望在ES中搜索的任何其他元數據/屬性。如果這是正確的,你將如何使用這兩者來支持這一點。我試圖找到更詳細的信息,關於如何正確地將兩者配對在一起,但一直不成功。其他人擁有的任何信息/文檔都會很棒。很好的機會,我忽略了一些明顯的

    1熱度

    1回答

    我們正在開發使用Kafka,storm和redis的數據管道應用程序。來自不同系統的實時事件將發佈給Kafka,風暴根據配置的規則進行事件處理。狀態由redis管理。 我們有不同的事件處理之前實現不同WAIT_TIME的要求。我們正在尋找以下選項。 我們最初看着風暴窗[滑動或翻滾窗口],但提供選項僅配置固定的時間間隔。我們需要基於規則的不同wait_time 我們正在探索將事件存儲在redis緩存