2
我試圖用MYSQL向S3抽取(用Sqoop)一個大表(500GB的大小約200M行)。但是,該表沒有數字鍵列。從MySQL到S3加載一個沒有數字ID的非常大的表格
它有一個3列組合主鍵。我觀察到sqoop不能均勻地分塊數據集,因爲ID在最小值和最大值之間不均勻分佈。 sqoop中的憤怒查詢無法正常工作,因爲該列未被編入索引。
有沒有更好的方法來做到這一點與sqoop或任何其他技術?
P.S.我試圖將數據輸出爲AVRO文件
一個500GB的表:o(我敢肯定,即使整個Stack Exchange *數據庫*都不是那麼大)。桌子上有什麼讓它如此之大? – cybermonkey
其交易數據:) – Malinga