我已經設置了一個spark-jobserver以在精簡數據集上啓用複雜查詢。Spark JobServer,發佈的內存設置
的jobserver執行兩個操作:
- 同步與主遠程數據庫,這使得一些服務器的表的轉儲,減少和聚合數據,並將結果保存爲實木複合地板的文件,並將它緩存作爲內存中的sql表。這項行動將每天完成;
- 查詢,當同步操作完成時,用戶可以對聚合數據集執行SQL複雜查詢,(最終)將結果導出爲csv文件。每個用戶在一次只能做一個查詢,並等待其完成。
最大的表格(減少之前和之後,其中還包括一些連接)有近30M的行,至少有30個字段。
其實我正在開發32GB ram專用於作業服務器的開發機器,並且一切都很順利。問題在於,在生產環境中,我們擁有與PredictionIO服務器共享的相同數量的ram。
我在問如何確定內存配置,以避免內存泄漏或火花崩潰。
我是新來的,所以每一個參考或建議都被接受。
謝謝