2017-02-03 34 views
0

我的問題是,我有一個500k行的Oracle表。我設置了sqoop將它作爲parquet文件導入HDFS。我將--num-partition參數設置爲32,我得到了32個parquet文件,但其中一個是28 MB大小,其他大小僅爲2-3 KB。sqoop進口拼花地板尺寸

這裏是我的sqoop命令:

bin/sqoop import --connect <JDBC> --username <USER> --password <PASSWD> --table <TABLE> --target-dir <TARGET_DIR> -m32 --as-parquetfile --delete-target-dir --outdir <DIR> 

我的問題是,什麼可能是這個文件大小的原因嗎?

回答

0

這意味着您的數據不是均勻分佈的。

我在命令中沒有看到任何--split-by列。所以,假設拆分是在主鍵上完成的。分割基本上是通過同時運行範圍查詢來完成的。範圍查詢之一是獲取最大數據,因此大小爲28 MB。