我想用hadoop進行大規模測試,我將擁有大集羣(大約50Tb),並且我想爲測試生成數據。首先我要測試配置單元性能,並生成結構化數據(CSV)。有人能建議最好的方法嗎?生成隨機數據進行測試
1
A
回答
4
第一個問題是你想僞造mapreduce作業來啓動沒有任何數據的映射器。默認情況下,它會啓動每塊1個地圖任務,所以讓我們來欺騙它。
要做到這一點,在HDFS
for i in {1..100}; do echo "hello $i" | hadoop fs -put - fakes/$i.txt ; done
這創造了一些「假文件」實際上將需要一段時間...也許一兩分鐘開始了。
然後,寫一個「讀取」這些文件的MapReduce作業。在地圖任務中,請勿實際使用任何數據。在該地圖功能中生成隨機數據,並將其寫出(context.write
)。當您的MapReduce作業運行時,它將啓動100個地圖任務,這些任務將全部並行生成隨機數據。
設置減速器的數量爲0,這裏不需要任何。
+2
https://github.com/adamjshook/mapreducepatterns/blob/master/MRDP/src/main/java/mrdp/ch7/RandomDataGenerationDriver.java < - 這是一種使用輸入格式的很酷的方式 – 2013-08-15 16:52:22
相關問題
- 1. 創建隨機數據進行測試
- 2. 生成隨機測試
- 3. 測試通過生成隨機數
- 4. 用於實際隨機/測試數據生成的數據集
- 5. 如何生成測試數據庫性能的隨機數據?
- 6. 生成隨機測試用例
- 7. 爲單元測試隨機生成樹
- 8. 如何使用隨機生成QuickCeck測試數據
- 9. 生成用於測試的隨機數據
- 10. 使用UUID隨機生成Java測試數據
- 11. 隨機數據測試
- 12. 隨機數據生成器
- 13. 生成隨機數據
- 14. 隨機數據生成器
- 15. 如何隨機生成R隨機數據隨機臨牀試驗?
- 16. 隨機測驗生成器
- 17. 生成隨機正常的數據,然後進行分類
- 18. 隨機數生成
- 19. 生成隨機數
- 20. 生成隨機數
- 21. 生成隨機數
- 22. 生成隨機數
- 23. 隨機數生成
- 24. 如何生成隨機但有效的e164號碼進行測試?
- 25. 問題,而試圖生成隨機數
- 26. 隨機數生成機制
- 27. 生成隨機數:計算隨機生成的x次數
- 28. 隨機數生成器幫助不生成隨機數 - C
- 29. cmake生成測試數據
- 30. Ruby測試數據生成
試試這個:http://www.generatedata.com/# – 2012-08-02 19:49:03