2016-11-07 81 views
0

我在通過sqoop導出將數據從Hive導出到Netezza時面臨性能問題。sqoop導出性能問題

有什麼辦法可以改善sqoop的性能嗎?

下面是詳細信息:在sqoop export命令

columns present in the table(source and destination) : 282 
format of file : text 
no of splits: 99 
data to be exported : 1000 MB 
+0

你可以添加你的示例'sqoop'命令嗎? –

+0

我會要求你將進程分解成多個線程,並行加載可以提高傳輸速度 – NzGuy

+0

以下是使用的示例sqoop命令:sqoop export -Dmapreduce.job.queuename = QUEUENAME --connect jdbc:netezza://SERVER_STRING/DB_NAME --username USER --password-file/PATH --table TABLE_NAME --batch --columns「282 COLOUMNS列表」--export-dir/DIR_PATH --input-fields-terminated-by'\ 001 '--lines-terminated-by'\ n'--input-null-string「\\\ N」--input-null-non-string「\\\ N」-m 100 –

回答

1

使用-batch。 另外

爲了進一步改善數據加載,你可以使用--direct。 限制:此模式不支持二進制和大對象類型。

0

什麼是您的羣集大小以及您可以分配給您的Sqoop作業的最大時隙數量?相應地給-m。這會增加總體處理時間。但請確保sqoop導出不是原子進程,因此創建一個臨時表,然後使用臨時表導出數據,否則可能會出現數據不一致的情況。