我想了解Spark中的分區。 我在Windows 10本地模式下運行spark。 我的筆記本電腦有2個物理內核和4個邏輯內核。Spark:理解分區 - 內核
1 /術語:對我來說,spark =核心線程。所以Spark中的核心與物理核心不同,對吧? Spark核心與任務相關聯,對嗎? 如果是這樣,因爲你需要一個分區線程,如果我的sparksql數據框有4個分區,它需要4個線程嗎?
2 /如果我有4個邏輯內核,是否意味着我只能在筆記本電腦上同時運行4個併發線程?那麼Spark中的4個?
3 /設置分區數量:如何選擇我的數據幀的分區數量,以便進一步轉換和操作儘可能快地運行? - 因爲我的筆記本電腦有4個邏輯核心,它應該有4個分區嗎? - 與物理內核或邏輯內核相關的分區數量是多少? - 在火花文檔中,寫道每個CPU需要2-3個任務。既然我有兩個物理核心,那麼分區的nb應該等於4還是6?
(我知道的分區,這個數字不會對本地模式太大的影響,但是這僅僅是明白的)
nit:我確實使用「spark core」來指代Spark與RDD的主/核心模塊。這對我來說是Spark核心。 –