在R中使用Sparklyr讀取.csv文件

我在C:\Users\USER_NAME\Documents中有幾個.csv文件，它們的大小超過2 GB。我想使用Apache Spark從R中讀取數據。我正在使用Microsoft R Open 3.3.1和Spark 2.0.1。在R中使用Sparklyr讀取.csv文件

我一直用Sparklyr包中定義的功能spark_read_csv(...)讀取.csv文件。它要求一個以file://開頭的文件路徑。我想知道我的案例從file://開始的正確文件路徑，並以.../Documents目錄中的文件名結尾。

2016-11-25 Koushik

是不是很「文件：/// C：/用戶/USER_NAME/Documents/FILENAME.csv'？ –

我有類似的問題。在我的情況下，在使用spark_read_csv調用之前，需要將.csv文件放入hdfs文件系統。

我想你可能有類似的問題。

如果羣集也與HDFS運行，你需要使用：

HDFS DFS -put

最佳，費利克斯

2017-05-30 10:05:31 Felix

如果目錄位於hdfs中，您可以創建配置單元映射（創建外部表...）並使用'spark_read_csv'一次讀取所有CSV – nachti

回答