Env:spark 1.6使用Hadoop。 Hortonworks數據平臺2.5Spark SQL「Limit」
我有一個表有100億條記錄,我想獲得3億條記錄並將它們移動到一個臨時表。
sqlContext.sql("select ....from my_table limit 300000000").repartition(50)
.write.saveAsTable("temporary_table")
我看到限制關鍵字實際上使火花只使用一個執行者!這意味着將3億條記錄移動到一個節點並將其寫回Hadoop。 我怎樣才能避免這種減少,但仍然有多個執行者只有3億條記錄。我希望所有節點寫入hadoop。
抽樣可以幫助我嗎?如果是這樣如何?
它無論哪個記錄?如果不是,那麼你可以使用示例函數 –