客戶能夠隨時上傳網址到數據庫和應用程序應該儘快處理url。所以我需要定期hadoop作業運行或從其他應用程序自動運行hadoop作業(任何腳本標識新鏈接被添加,爲hadoop作業生成數據並運行作業)。對於PHP或Python腳本,我可以設置cronjob,但是定期運行hadoop的最佳做法是什麼(爲hadoop準備數據,上傳數據,運行hadoop作業並將數據移回數據庫?)正在運行的定期hadoop工作(最佳實踐)
2
A
回答
0
如果您想讓url請儘快處理,我們建議您等待一些鏈接(或MB鏈接,或者例如每天10分鐘)
然後批量處理它們(我每天都在做我的處理,但是這個工作需要幾個小時)
1
看看Oozie,它是Y!的新工作流系統,它可以根據不同的觸發器運行作業,Alejandro在這裏提出了一個很好的溢出: http://www.slideshare.net/ydn/5-oozie-hadoopsummit2010
相關問題
- 1. 運行工作線程以定期更新UI的最佳實踐
- 2. 使用Oozie for Hadoop的最佳實踐
- 3. Android - 定期服務的最佳實踐
- 4. Hadoop和MS SQL Server最佳實踐
- 5. 日期最佳實踐
- 6. ETL工具遷移:並行運行的最佳實踐
- 7. ASP.NET MVC後臺工作 - 最佳實踐
- 8. Eclipse工作區最佳實踐
- 9. Eclipse工作區位置 - 最佳實踐
- 10. 碼頭工在最佳實踐中運行如何?
- 11. 綁定最佳實踐
- 12. 最佳實踐
- 13. 最佳實踐
- 14. 最佳實踐
- 15. 最佳實踐:
- 16. 最佳實踐
- 17. 最佳實踐
- 18. 最佳實踐
- 19. 最佳實踐
- 20. 最佳實踐
- 21. 最佳實踐
- 22. 最佳實踐
- 23. 最佳實踐
- 24. 最佳實踐
- 25. 最佳實踐
- 26. 最佳實踐
- 27. 最佳實踐
- 28. 最佳實踐
- 29. 最佳實踐
- 30. 最佳實踐{{}}
定義什麼可以'儘快' - 一小時?一天?半秒? MapReduce有很大的延遲,如果是後者,你可能需要找到另一種解決方案。 – 2012-01-16 05:32:09