上傳或下載，將tar文件解壓到數據塊Spark

剛剛開始使用Apache spark。拿到了Databricks安裝程序。正在努力上傳CSV & TAR文件。上傳或下載，將tar文件解壓到數據塊Spark

val publicPCD = sqlContext 
    .read.format("com.databricks.spark.csv") 
    .option("header", "true") 
    .option("inferSchema", "true") 
    .load("s3-us-west-1.amazonaws.com/db007/Postcode+Data+for+Consumers+FINAL2.csv")

結果：

錯誤：org.apache.hadoop.mapred.InvalidInputException：輸入路徑不存在：/s3-us-west-1.amazonaws.com/db007/Postcode + Data + for + Consumers + FINAL2.csv

理想情況是下載TAR文件，提取CSV文件並進行一些分析。看看這個文檔沒有任何運氣https://dbc-272bf360-dc36.cloud.databricks.com/#notebook/10137 https://dbc-272bf360-dc36.cloud.databricks.com/#notebook/10758

任何幫助表示讚賞。

來源

2016-01-18 Jas Geek

佈局和格式，我的朋友，佈局和格式！ –

-1

這就是你怎麼做到的。

import java.net.URLEncoder 
val AccessKey = getArgument("1. ACCESS_KEY", "REPLACE_WITH_YOUR_ACCESS_KEY") 
val SecretKey = getArgument("2. SECRET_KEY", "REPLACE_WITH_YOUR_SECRET_KEY") 
val EncodedSecretKey = SecretKey.replace("/", "%2F") 
val AwsBucketName = getArgument("3. S3_BUCKET", "REPLACE_WITH_YOUR_S3_BUCKET") 
val MountName = getArgument("4. MNT_NAME", "REPLACE_WITH_YOUR_MOUNT_NAME")

使用自己的信息填寫它

val publicPCD = sqlContext 
    .read.format("com.databricks.spark.csv") 
    .option("header", "true") 
    .option("inferSchema", "true") 
    .load(s"s3a://$AccessKey:[email protected]$AwsBucketName/.../...")

改變最後一行與桶位置排隊！

來源

2016-01-19 11:18:08

上傳或下載，將tar文件解壓到數據塊Spark

回答

相關問題