我需要從MYSQL導入數據,運行MR並將其導出回MYSQL。 我能夠在單個MR作業中使用DBInputFormat和DBOutputFormat成功完成一些記錄。 當我將輸入記錄縮放到1億多條記錄時,MR作業掛起。 對此的替代是將數據導出到HDFS,運行MR作業並推送回My SQL。Hadoop MapReduce DBInputFormat和DBOutputFormat
對於大約400多萬條記錄的大數據集,使用DBInputFormat和DBOutputFormat或使用HDFS作爲數據源和目的地,哪個選項更好。
使用HDFS會在我的MR作業之前和之後添加一個步驟。 由於數據存儲在HDFS上,因此會被複制(默認爲3),並且需要更多的硬盤空間。 感謝 Rupesh
你能解釋爲什麼MR作業掛起? – zsxwing
你的意思是說我們不使用DBinputFormat將數據導出到HDFS? –
我們正在使用DBINputFormat並對其執行MR操作。我假設DBInputFormat將在內部存儲HDFS數據。 –