我有一個CSV文件,我嘗試使用Spark CSV package加載,並且它沒有正確加載數據,因爲其中的幾個字段中有\n
。下面兩行Spark CSV包無法處理字段中的 n
"XYZ", "Test Data", "TestNew\nline", "OtherData"
"XYZ", "Test Data", "blablablabla
\nblablablablablalbal", "OtherData"
我使用下面的代碼在網上讀它解決了多個問題,換行,但它似乎並不爲我的情況是直接的,我使用parserLib
作爲univocity
。
SQLContext sqlContext = new SQLContext(sc);
DataFrame df = sqlContext.read()
.format("com.databricks.spark.csv")
.option("inferSchema", "true")
.option("header", "true")
.option("parserLib","univocity")
.load("data.csv");
請指導如何在以引號開頭的字段中替換換行符。有沒有更簡單的方法?
嗨Apurva感謝不幸的是我沒有選擇移動到星火2.0 – u449355
哎呦..然後做一個清理\ n使用簡單的rdd.map從RDD使用正則表達式。隨時都會發生。數據中有垃圾,需要清理。這個正則表達式不會觸及CRLF,因爲行結束符是正則表達式中的$。 –