-2
我是新來的Spark和StackOverFlow社區的編程人員。嘗試在Cloudera QuickStart VM中使用Spark獲取數據的子集。在所附的快照,你會看到20條記錄使用代碼的輸出:在Spark中設置數據
channel_views.take(20)
這裏,channel_views
是一個包含幾百個記錄的RDD。我試圖只包含那些包含單詞'XYZ'的特定記錄和相應的數值。我如何實現這一目標?
在此先感謝。
zero323:謝謝您的答覆。我嘗試在Spark命令行中使用第一條命令,但它沒有提供包含確切單詞「XYZ」的記錄列表。相反,輸出結果顯示「PythonRDD.scala:RDRD處的PythonRDD [44]」。不知道這是什麼意思。 – dataZ
http://spark.apache.org/docs/latest/quick-start.html#basics – zero323
謝謝,zero323!您的解決方案和資源幫助!原諒我對這個問題的無知 - 我是新的(1周大)到Spark領域,以及stackoverflow社區。 – dataZ