2016-01-15 36 views
1

我的用例如下:我們正在使用Spark從HDFS讀取和轉換數據。轉換後的數據應保存在memsql中。使用Spark寫入memsql的最佳實踐

是否有任何使用Spark寫入memsql的最佳實踐?也就是說,使用Dataframe進行大規模(並行)寫入時,確保寫入性能和可伸縮性的最佳方式是什麼?

什麼是首選解決方案:使用memsql/Spark連接器(https://github.com/memsql/memsql-spark-connector)或DataFrame的「寫入」方法(結合MySQL JDBC驅動程序)。

簡要說明一句話:Spark如何寫入memsql?

回答

1

MemSQL/Spark連接器有一些針對memsql的優化,與通過mysql驅動程序寫入相比,可以提高性能。

您還應該看看MemSQL Streamliner(http://docs.memsql.com/latest/spark/),它允許您輕鬆設置管道以使用Spark將數據加載到memsql中,併爲管理可伸縮性做了大量工作。