我正在動態評估一些數據庫模式。由於有大量的模式,在一臺PC上評估它們是不現實的。我想通過評估一個工作節點上的每個模式來使用Spark來完成這項工作。評估程序將如此。 (1)爲每個模式創建測試負載,並將所有測試負載存儲在Hadoop文件系統或工作節點的本地文件系統中。測試加載只是在.SQL文件中插入和選擇語句,但是大小很大。 (2)從文件系統讀取測試負載,並將語句提供給mysql以使用JDBC執行。我會記錄在同一時間花費的時間。Spark如何在一個工作節點上執行一個地圖動作?
我們可以將評估過程作爲「e」函數來處理,它將數據庫模式作爲輸入,並輸出評估的時間消耗。我們可以將該函數映射到模式數組,以獲得一系列評估時間。
有沒有辦法在Spark中實現這一點?由於我必須在一個工作節點上運行該功能,因此問題是:是否有辦法在一個工作節點上運行每個映射操作?
謝謝大家!
感謝你真是太棒了!經過一段時間的思考之後,我也認爲它在某種意義上不是一個經典的地圖縮減工作。我遇到的主要問題是用一臺PC評估這些模式將花費15天時間,這是不能接受的。我需要一種方法來縮短評估時間。我想也許2是最簡單的方法。謝謝! – 2014-11-24 15:44:18