我正在使用Python在RDD中工作。我想從這個RDD如何使用Python從RDD獲取特定記錄
(8, 23, 4.0)
(50, 21, 3.0)
(5, 48, 3.0)
(5, 85, 3.0)
(40, 17, 3.0)
(3, 62, 3.0)
(24, 92, 3.0)
(48, 24, 3.0)
(48, 73, 3.0)
(34, 48, 3.0)
(50, 14, 3.0)
(1, 78, 3.0)
(7, 8, 3.0)
(10, 87, 3.0)
(14, 82, 3.0)
對於實例找到一個特定的記錄:我想找到第3個值時1st is 3
和2nd is 62
,所以它應該返回3.0
。元組是(3,62,3.0)
,從RDD頂部開始第6位
由於我是Spark和Python的初學者,我不知道使用了正確的術語。我沒有得到如何使用過濾器或地圖功能或使用哪一個。
過濾器會減少您的數據集,並且映射將在所有行上應用一個函數。映射不會給你一個記錄。請顯示您的過濾嘗試 –