2016-11-25 52 views
1

我在C:\Users\USER_NAME\Documents中有幾個.csv文件,它們的大小超過2 GB。我想使用Apache Spark從R中讀取數據。我正在使用Microsoft R Open 3.3.1和Spark 2.0.1。在R中使用Sparklyr讀取.csv文件

我一直用Sparklyr包中定義的功能spark_read_csv(...)讀取.csv文件。它要求一個以file://開頭的文件路徑。我想知道我的案例從file://開始的正確文件路徑,並以.../Documents目錄中的文件名結尾。

+0

是不是很「文件:/// C:/用戶/USER_NAME/Documents/FILENAME.csv'? –

回答

1

我有類似的問題。在我的情況下,在使用spark_read_csv調用之前,需要將.csv文件放入hdfs文件系統。

我想你可能有類似的問題。

如果羣集也與HDFS運行,你需要使用:

HDFS DFS -put

最佳, 費利克斯

+0

如果目錄位於hdfs中,您可以創建配置單元映射(創建外部表...)並使用'spark_read_csv'一次讀取所有CSV – nachti