2010-06-29 36 views
2

客戶能夠隨時上傳網址到數據庫和應用程序應該儘快處理url。所以我需要定期hadoop作業運行或從其他應用程序自動運行hadoop作業(任何腳本標識新鏈接被添加,爲hadoop作業生成數據並運行作業)。對於PHP或Python腳本,我可以設置cronjob,但是定期運行hadoop的最佳做法是什麼(爲hadoop準備數據,上傳數據,運行hadoop作業並將數據移回數據庫?)正在運行的定期hadoop工作(最佳實踐)

+0

定義什麼可以'儘快' - 一小時?一天?半秒? MapReduce有很大的延遲,如果是後者,你可能需要找到另一種解決方案。 – 2012-01-16 05:32:09

回答

0

如果您想讓url請儘快處理,我們建議您等待一些鏈接(或MB鏈接,或者例如每天10分鐘)
然後批量處理它們(我每天都在做我的處理,但是這個工作需要幾個小時)