我需要進口維基百科轉儲(MySQL表,解壓後的文件大約需要50GB)到Hadoop的(HBase的)。現在,我首先將dump加載到mysql中,然後將數據從mysql傳輸到hadoop。但是將數據加載到MySQL需要大量的時間 - 大約4-7天。是否有可能直接加載mysql轉儲到hadoop(通過一些轉儲文件解析器或類似的東西)?如何將大型MySQL轉儲導入到hadoop?
回答
至於我記得 - MySQL的轉儲幾乎全部被設置插入語句的。你可以在你的映射器中解析它們,並按原樣處理它們......如果你只有少數表格,那麼在java中解析代碼很困難。
的答案是,它的工作原理。只需要1小時即可將7.6億記錄轉儲轉換爲csv格式。之後,導入到hadoop或mongo是微不足道的。 – hudvin
我很高興能有幫助 –
使用sqoop。使用map reduce作業將mysql數據導入HDFS的工具。
這是很方便的。
據我所知它需要的數據是已經在MySQL(通過JDBC訪問) – hudvin
Sqoop可以從CSV並在Avro的格式文件導入 - 見http://sqoop.apache.org/docs/1.4。 4/SqoopUserGuide.html#_file_formats – blueberryfields
- 1. 將大型sql轉儲導入到Mysql
- 2. 緩慢導入大型MySQL轉儲
- 3. 導入多個大型sql轉儲mysql
- 4. 如何將大型(14 GB)MySQL轉儲文件導入新的MySQL數據庫?
- 5. 如何導入mysql轉儲?
- 6. 如何導入mysql轉儲到SQLyog
- 7. 無法將大型SQL轉儲導入MySQL 5.6
- 8. 將轉儲文件導入到mysql JDBC
- 9. 將大型csv文件導入到mysql
- 10. 將大型外部MySQL XML轉儲導入到我自己的數據庫中?
- 11. 如何將PHPMyAdmin SQL轉儲文件導入到MySQL數據庫?
- 12. 將大量的MySQL數據導入到Hadoop中
- 13. 通過sqlpus導入大型SQL轉儲
- 14. Objective-C - FMDB - 大型SQLite轉儲導入
- 15. 如何將大型csv文件導入到mysql?
- 16. 如何將mySQL轉儲文件導入MySQL較低版本?
- 17. 將MySQL轉儲文件導入MSSQL
- 18. 導入維基百科轉儲到MySql
- 19. 導入MySQL錶轉儲
- 20. MySQL轉儲不導入
- 21. Grails MySQL導入轉儲
- 22. 將非常大的轉儲文件導入到MySQL數據庫中
- 23. 將大型SQL轉儲上傳到Xeround MySQL數據庫
- 24. 將oracle轉儲導入到PostgreSQL
- 25. 使用visual foxpro將數據庫轉儲導入到mysql
- 26. 將大的.sql文件導入到MySQL
- 27. 如何導入大型SQL文件到MySQL表
- 28. Hadoop輸入拆分轉儲
- 29. 如何在Windows中將多個轉儲文件導入到mysql中?
- 30. 將轉儲導入Oracle
你爲什麼要將數據轉移到mysql?您是否在使用它進行進一步處理?如果沒有,那麼有一種方法可以直接將數據放入hadoop。將添加基於你回答什麼 –
也許你可以利用https://sqoop.apache.org/ – rretzbach