我有一個需求,即需要從多個源系統(Mysql實例)每隔5分鐘獲取一次數據,並使用其他一些數據(S3中可以說)加入和豐富它們。Spark中的Mysql數據處理
我想在Spark中進行這個處理來將我的執行分配給多個執行者。
主要的問題是每次我在Mysql中進行查找時,我只想獲取最新記錄(可以用lastModifiedOn> timestamp來說)。 如何有效地選擇性地獲取MySql行? 這是我曾嘗試:
val filmDf = sqlContext.read.format("jdbc")
.option("url", "jdbc:mysql://localhost/sakila")
.option("driver", "com.mysql.jdbc.Driver").option("dbtable", "film").option("user", "root").option("password", "")
.load()
你可以更新你已經嘗試了什麼你的問題? – eliasah
@eliasah是的將更新帖子。 – Karshit