2016-01-18 40 views
0

剛剛開始使用Apache spark。拿到了Databricks安裝程序。 正在努力上傳CSV & TAR文件。上傳或下載,將tar文件解壓到數據塊Spark

val publicPCD = sqlContext 
    .read.format("com.databricks.spark.csv") 
    .option("header", "true") 
    .option("inferSchema", "true") 
    .load("s3-us-west-1.amazonaws.com/db007/Postcode+Data+for+Consumers+FINAL2.csv") 

結果:

錯誤:org.apache.hadoop.mapred.InvalidInputException:輸入路徑不存在:/s3-us-west-1.amazonaws.com/db007/Postcode + Data + for + Consumers + FINAL2.csv

理想情況是下載TAR文件,提取CSV文件並進行一些分析。 看看這個文檔沒有任何運氣https://dbc-272bf360-dc36.cloud.databricks.com/#notebook/10137 https://dbc-272bf360-dc36.cloud.databricks.com/#notebook/10758

任何幫助表示讚賞。

+1

佈局和格式,我的朋友,佈局和格式! –

回答

-1

這就是你怎麼做到的。

import java.net.URLEncoder 
val AccessKey = getArgument("1. ACCESS_KEY", "REPLACE_WITH_YOUR_ACCESS_KEY") 
val SecretKey = getArgument("2. SECRET_KEY", "REPLACE_WITH_YOUR_SECRET_KEY") 
val EncodedSecretKey = SecretKey.replace("/", "%2F") 
val AwsBucketName = getArgument("3. S3_BUCKET", "REPLACE_WITH_YOUR_S3_BUCKET") 
val MountName = getArgument("4. MNT_NAME", "REPLACE_WITH_YOUR_MOUNT_NAME") 

使用自己的信息填寫它

val publicPCD = sqlContext 
    .read.format("com.databricks.spark.csv") 
    .option("header", "true") 
    .option("inferSchema", "true") 
    .load(s"s3a://$AccessKey:[email protected]$AwsBucketName/.../...") 

改變最後一行與桶位置排隊!