1
因此,我不熟悉AWS S3和pyspark和linux。我不知道從哪裏開始。這裏是我的問題:使用pyspark/python在AWS S3上的目錄中列出文件
在linux下我可以發出以下命令,可以在文件夾中看到文件:
aws s3 ls 's3://datastore/L2/parquet'
做類似的事情,與Python不起作用
import os
os.listdir('s3://datastore/L2/parquet')
它給錯誤:
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
OSError: [Errno 2] No such file or directory: 's3://datastore/L2/parquet'
然而,pyspark
和SQLContext.read.parquet
理解的IT得好:
from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
df = sqlContext.read.parquet('s3://datastore/L2/parquet')
任何理由爲什麼它工作在SQLContext
和os.listdir
不起作用?我在哪裏可以開始清除我的困惑?除了「獲得cs學士學位」之外的任何答覆都會有所幫助。