我在通過sqoop導出將數據從Hive導出到Netezza時面臨性能問題。sqoop導出性能問題
有什麼辦法可以改善sqoop的性能嗎?
下面是詳細信息:在sqoop export命令
columns present in the table(source and destination) : 282
format of file : text
no of splits: 99
data to be exported : 1000 MB
我在通過sqoop導出將數據從Hive導出到Netezza時面臨性能問題。sqoop導出性能問題
有什麼辦法可以改善sqoop的性能嗎?
下面是詳細信息:在sqoop export命令
columns present in the table(source and destination) : 282
format of file : text
no of splits: 99
data to be exported : 1000 MB
使用-batch。 另外
爲了進一步改善數據加載,你可以使用--direct。 限制:此模式不支持二進制和大對象類型。
什麼是您的羣集大小以及您可以分配給您的Sqoop作業的最大時隙數量?相應地給-m。這會增加總體處理時間。但請確保sqoop導出不是原子進程,因此創建一個臨時表,然後使用臨時表導出數據,否則可能會出現數據不一致的情況。
你可以添加你的示例'sqoop'命令嗎? –
我會要求你將進程分解成多個線程,並行加載可以提高傳輸速度 – NzGuy
以下是使用的示例sqoop命令:sqoop export -Dmapreduce.job.queuename = QUEUENAME --connect jdbc:netezza://SERVER_STRING/DB_NAME --username USER --password-file/PATH --table TABLE_NAME --batch --columns「282 COLOUMNS列表」--export-dir/DIR_PATH --input-fields-terminated-by'\ 001 '--lines-terminated-by'\ n'--input-null-string「\\\ N」--input-null-non-string「\\\ N」-m 100 –