2013-03-20 20 views
0

我正在編寫創建大型圖形數據庫的軟件。該軟件需要訪問幾十個不同的REST API並提供數百萬次的請求。數據將由Hadoop集羣進行處理。這些API中的每一個都具有速率限制,這些速率限制因請求/秒,每個窗口,每天和每個用戶(通常通過OAuth)而異。有沒有辦法利用Hadoop工具來將並行REST API調用管理到外部源?

有沒有人對我如何使用Map函數或其他Hadoop生態系統工具來管理這些查詢有任何建議?目標是在Hadoop中利用並行處理。

由於費率限制的不同,在等待第一次重置限制時切換到其他API查詢通常是有意義的。一個例子是在圖中創建節點的一個API調用,另一個用於豐富該節點的數據的API調用。我可以在等待第一個API限制重置的同時使系統熄滅並充實新節點的數據。

我曾嘗試在EC2上使用SQS排隊來管理各種API限制和狀態(爲每個API調用創建一個隊列),但發現它的速度很慢。

任何想法?

回答

0

它看起來像我的方案的最佳選擇將使用風暴,或特別是三叉戟抽象。它爲我提供了工作負載管理和流程管理方面最大的靈活性

相關問題