partitioning

    0熱度

    1回答

    ALTER TABLE ticket_details PARTITION BY LIST(ticket_status_id) SUBPARTITION BY LIST(ticket_type_id) ( PARTITION QTR1 VALUES IN (1) ( SUBPARTITION sQTR1 VALUES IN (1), SUBPART

    1熱度

    1回答

    我有這樣的數據幀: dict_data = {'id' : [1,1,1,2,2,2,2,2], 'datetime' : np.array(['2016-01-03T16:05:52.000000000', '2016-01-03T16:05:52.000000000', '2016-01-03T16:05:52.000000000', '2016-01-27T15:45:20.0

    2熱度

    1回答

    在Hive中經歷了Skewed tables之後,我對將數據存儲到傾斜表的方式以及處理分區表的方式感到困惑。可有人明確說明具有顯着的例子的區別在何處這兩個概念 Skewed Tables and Partitioned Tables 一致,他們有什麼不同? 請做提供示例。

    0熱度

    1回答

    我正在設計卡桑德拉柱系列。 在加載更高密度的數據之後,我遇到了選擇時出現較高GC的情況。也就是說,分區中的數據量增加了。對於低密度數據,它也可以正常工作。 我想知道Cassandra如何執行SELECT查詢(同時指定了分區和集羣密鑰)? 當我們執行SELECT時,分區中的整個數據集是否被加載到內存中? 大量分區鍵會影響性能嗎?

    0熱度

    1回答

    我有一個使用Kafka的基於Spring Cloud Stream的微服務。 我用4個分區創建了一個kafka主題。 我配置在我YML以下內容:partitionKey可變 spring: cloud: stream: bindings: SYNC_TABLE: content-type: application/json p

    0熱度

    1回答

    我有一個表使用多個表中的繼承分區數天。 有一個INSERT觸發器將數據插入到適當的表,所以理論上AVL表不應該有任何的數據 CREATE OR REPLACE FUNCTION avl_db.avl_insert_trigger() RETURNS trigger AS $BODY$ BEGIN IF (NEW.event_time >= '2017-06-01 00:00

    1熱度

    1回答

    我有下面的場景,我有多個大文件(每個大約200M記錄),我想通過kafka發送該文件。爲了獲得更好的性能,我想使用Kafka分區來發送數據。現在我的數據要求是針對特定的密鑰,所有的消息都應該傳送到特定的分區。目前,對於POC,我使用10個卡夫卡分區,並使用數字ID字段對數據進行分區。我的邏輯只是檢查IT的最後一位數字並將記錄發送到相應的kafka分區。 EX:ID - ***7將總是進入分區7.現

    0熱度

    1回答

    我有一張巨大的表,它包含大量數據 - 歷史記錄和當前數據。 我有一些表舊數據移動到歷史表 自動工作(並從源中刪除)。 所以我想建立一個 interval-partition 表,從該表中獲取舊數據。 的問題是,在源基日期列是VARCHAR2在這種模式: 2017/07 和數據類型需要是相同的源的新的表列。 所以當我試圖創建間隔分區表時,我無法對它做一個範圍。 如果您嘗試使用 to_date 你得到

    0熱度

    2回答

    我想在其中一個表上實現交換機分區,並且確保分區函數,方案,文件組正常工作。但是當我運行下面的命令時,我得到文件組錯誤。有人可以分享你的想法。 命令: - ALTER TABLE XYZ SWITCH PARTITION 5 TO ABC PARTITION 5; 錯誤: - ALTER TABLE switch語句失敗。表'XYZ'在文件組'PRIMARY'中,表'ABC'的分區5在文件組'F

    0熱度

    1回答

    這可能是一件簡單的事情,但我努力尋找答案。將數據加載到HDFS時,將其分發並加載到多個節點中。數據被分區和分配。 對於HIVE,可以單獨選擇PARTITION數據。我很確定,即使您沒有提到PARTITION選項,當加載配置單元表時,數據將被拆分並分發到羣集上的不同節點。這個命令在這種情況下會帶來什麼額外的好處。