Q

從Spark Mysql快速更新

2016-09-06 105 views 0 likes

0

我有一張擁有4百萬條記錄和新數據的表格，每天都有新的數據，我需要在處理新數據後更新表格。目前我正在爲此目的這樣做。我正在使用scala。從Spark Mysql快速更新

val batchSize = 1000 
df.rdd mapPartitions (_ grouped batchSize) foreach { batch => 
    { 
    val connection = getConnection(); 
    val statement = connection.createStatement(); 
    batch.foreach { row => 
     val query = "UPDATE temp SET file_name='" + row.get(0) + " WHERE id=" + row.get(3); 
     statement.executeUpdate(query); 

    } 
    connection.close(); 
    } 
}

這不是確切的查詢，但我這樣做。這需要大約1小時來更新表格。我需要提高性能。我怎樣才能達到性能。

2016-09-06 Atif Shahzad

A

回答

1

如果SQL數據庫未被索引，則根據row.get（3）字段添加索引。
如果SQL數據庫沒有InnoDB的，使它的InnoDB - InnoDB的是併發操作（需要併發）

它看起來像火花併發部分正確地進行進一步的優化應該變得更好從基礎設施（在這種情況下，數據庫）

2016-09-06 08:02:15

+0

是我使用innoDB，也有索引的關鍵，但最大更新每秒6000到7000和表400萬行約11分鐘。 –

+0

@AtifShahzad你可以嘗試進一步並行'批處理'，它是什麼數據類型？你可以像這樣使用'par'關鍵字：'（1 to 10000）.toArray.par' –

+0

批處理數據類型是Seq [Row] –

相關問題

11. java mysql快速
12. 更快速地更新圖像像素
13. 更快加速
14. 哪個表在MYSQL中速度更快？
15. 哪個MySQL查詢速度更快？
16. 如何加快MYSQL更新？
17. 快速MySQL導入
18. Mysql InnoDB和快速應用大型更新
19. 如何在mysql中快速更新數百萬行
20. MySQL如何快速匹配列和更新？
21. 快速更新MySql中的數千條記錄
22. 快速更新mysql數據庫主鍵的選擇
23. 訪問查詢不夠快速更新
24. 更新快速會話會話
25. JavaFX和Canvas的快速更新
26. 更新多行的快速方法
27. 快速更新TextField時發生NullPointerException
28. 使用Spark Dataframe更新Mysql列值
29. 快速中值更新算法
30. MySQL選擇不從30K行快速