使用Spark寫入memsql的最佳實踐

我的用例如下：我們正在使用Spark從HDFS讀取和轉換數據。轉換後的數據應保存在memsql中。使用Spark寫入memsql的最佳實踐

是否有任何使用Spark寫入memsql的最佳實踐？也就是說，使用Dataframe進行大規模（並行）寫入時，確保寫入性能和可伸縮性的最佳方式是什麼？

什麼是首選解決方案：使用memsql/Spark連接器（https://github.com/memsql/memsql-spark-connector）或DataFrame的「寫入」方法（結合MySQL JDBC驅動程序）。

簡要說明一句話：Spark如何寫入memsql？

MemSQL/Spark連接器有一些針對memsql的優化，與通過mysql驅動程序寫入相比，可以提高性能。

您還應該看看MemSQL Streamliner（http://docs.memsql.com/latest/spark/），它允許您輕鬆設置管道以使用Spark將數據加載到memsql中，併爲管理可伸縮性做了大量工作。

2016-01-15 15:24:19

回答