2017-07-30 35 views
1

我有大約10萬條記錄(以Java的ArrayList存儲)。我想將這些記錄插入Impala。插入Impala表vs寫入HDFS

我應該用insert into table partition values直接插入黑斑羚。 (我不確定在一個sql語句中可以插入多少條記錄。)

或者我應該將這些記錄寫入HDFS,然後alter impala表?

哪種方式是首選?還是有其他解決方案嗎?

而且如果我每5分鐘做一次,我怎樣才能避免一個分區中的這麼多小文件(按小時分區)?這些將在每個分區中生成12個小文件,這會影響查詢速度嗎?

回答

0

你能做的最好的就是做:

  1. 創建因帕拉你的表作爲與HDFS路線
  2. 在HDFS直接進行插入相關聯的外部表,如果可能的話,每天,每小時是大概很少
  3. 執行無效metada $ TABLE_NAME命令,這樣的數據是可見

我希望答案爲你服務

問候!