我有一個數據框,如下所示。它包含hdfs文件路徑。我想讀取這些值,然後閱讀文件的內容。沒有任何利用並行處理的嵌套RDD,解決這個問題的最好方法是什麼?我使用Scala的2.11和2.1星火讀取數據框中可用的文件路徑並使用spark讀取這些文件的內容
+--------------------+
| value|
+--------------------+
|hdfs://61.81.70.1...|
|hdfs://61.81.70.1...|
|hdfs://61.81.70.1...|
|hdfs://61.81.70.1...|
+--------------------+
編輯基於Ankush答案: 的文件是巨大的,無法使用wholeTextFiles
閱讀謝謝
將它收集到一個字符串數組中,然後用'sc.textFile'映射它。你應該有一系列的RDD – philantrovert