2016-11-28 89 views
3

在Apache Spark中有input_file_name函數,我用它將新列添加到Dataset中,並將其與當前正在處理的文件的名稱相加。UDF從Spark SQL中的路徑中僅提取文件名

問題是我想以某種方式定製此函數以僅返回文件名,在S3上省略它的完整路徑。

現在,我在第二步驟中使用地圖功能做更換的路徑:

val initialDs = spark.sqlContext.read 
.option("dateFormat", conf.dateFormat) 
.schema(conf.schema) 
.csv(conf.path).withColumn("input_file_name", input_file_name) 
... 
... 
def fromFile(fileName: String): String = { 
    val baseName: String = FilenameUtils.getBaseName(fileName) 
    val tmpFileName: String = baseName.substring(0, baseName.length - 8) //here is magic conversion ;) 
    this.valueOf(tmpFileName) 
} 

但我想使用類似

val initialDs = spark.sqlContext.read 
    .option("dateFormat", conf.dateFormat) 
    .schema(conf.schema) 
    .csv(conf.path).withColumn("input_file_name", **customized_input_file_name_function**) 
+0

'.withColumn( 「input_file_name」,get_only_file_name(input_file_name))'。這裏'get_only_file_name'是udf。 – mrsrinivas

回答

5

在斯卡拉:

#register udf 
spark.udf 
    .register("get_only_file_name", (fullPath: String) => fullPath.split("/").last) 

#use the udf to get last token(filename) in full path 
val initialDs = spark.read 
    .option("dateFormat", conf.dateFormat) 
    .schema(conf.schema) 
    .csv(conf.path) 
    .withColumn("input_file_name", get_only_file_name(input_file_name)) 

編輯:在Ja VA按照評論

#register udf 
spark.udf() 
    .register("get_only_file_name", (String fullPath) -> { 
    int lastIndex = fullPath.lastIndexOf("/"); 
    return fullPath.substring(lastIndex, fullPath.length - 1); 
    }, DataTypes.StringType); 

import org.apache.spark.sql.functions.input_file_name  

#use the udf to get last token(filename) in full path 
Dataset<Row> initialDs = spark.read() 
    .option("dateFormat", conf.dateFormat) 
    .schema(conf.schema) 
    .csv(conf.path) 
    .withColumn("input_file_name", get_only_file_name(input_file_name())); 
+1

謝謝,它做到了! – cingulata

+0

@ Anandj.Kadhi:我知道回覆的時間非常晚,請檢查一次更新。 – mrsrinivas

相關問題