0
我有一個龐大的新聞數據庫,但每當我試圖sqoop它,把它寫到文件2-3,而不是整個200SQOOP不均勻輸出文件大小
sqoop import -D mapred.map.max.attempts=4 \
-D dfs.blocksize=1073741824 \
-D oraoop.block.allocation=RANDOM \
-D mapred.job.queue.name=default \
-m 200 \
--split-by AUTHOR_ID \
--connect jdbc:oracle:thin:@$127.0.0.1:1521:SRDB \
--username abc \
--password 1234 \
--table L.ARTICLE \
--null-string '' \
--null-non-string '' \
--target-dir /data/output1.0
--outdir /tmp/output
但是,當我跑了,我得到了202個文件,而不是200個。其中只有3個文件有數據,剩餘的輸出文件都是空的。
我在做什麼錯?任何提示將不勝感激!
謝謝
非常感謝!寫得很好。 – Gon
在這種情況下,我如何確保相同的AUTHOR_ID不會跨越多個文件? – Gon
@恩我沒有明白。每個文件都由AUTHOR_ID上的一些範圍查詢創建,每個查詢都不同,因此不同文件中會有不同的AUTHOR_ID。 –