我是新來斯卡拉/火花(大約一個星期現在)斯卡拉/星火選擇列很慢
下面的代碼被我的8核心的筆記本電腦,64位,Win10 運行數據幀有1700行。 ONE選擇需要十秒以上。
看着控制檯顯示主要掛在這一點上:
17/09/02 12時23分46秒INFO FileSourceStrategy:修剪目錄有:
守則
{
val major:String =name.substring(0,name.indexOf("_SCORE"))+"_idx1"
println(major)
val majors = dfMergedDroppedDeleted
.select(col(major))
.collect().toSeq
println(s"got majors ${majors.size}")
}
這應該需要幾毫秒(基於休眠,r,mysql等的經驗) 我假設我的火花配置有問題嗎?
任何建議將是最受歡迎的。
全控制檯輸出到掛起如下:
1637_1636_1716_idx1
1637_1636_1716_idx2
17/09/02 12時23分08秒INFO ContextCleaner:已清除累加器765
17/09/02 12:23:08 INFO ContextCleaner:清理累加器763
17/09/02 12時23分08秒INFO BlockManagerInfo:在存儲器上刪除了192.168.0.13:62246 broadcast_51_piece0(尺寸:113.7 KB,免費:901.6 MB)
17/09/02 12點23: 08 INFO ContextCleaner:已清除累加器761
17/09/02 12時23分08秒INFO ContextCleaner:已清除累加器764
17/09/02 12時23分08秒INFO ContextCleaner:已清除累加器762
17/09/02 12:23:08 INFO ContextCleaner:清理累加器766
17/09/02 12時23分08秒INFO BlockManagerInfo:在存儲器上刪除了192.168.0.13:62246 broadcast_50_piece0(尺寸:20.7 KB,免費:901.6 MB)
17/09/02 12點23: 08信息FileSourceStrategy:修剪目錄:
星火快得多沒有內置用於同樣用途的,如MySQL數據庫。你在哪裏運行?在火花外殼或提交?多少個文件和多少個分區?你在這之前運行什麼代碼? – Garren
我目前正在運行作爲junit測試。從csv導入一個數據文件。在此之前,已經有多個數據幀轉換,其中的列與withColumn()合併在一起。這是很多代碼,我不相信這個問題是相關的,因爲我現在有一個大約1000個變量和1700行的單個數據框 – Jake
注意:這是數據清理操作的一部分。我通常在R. – Jake