0
閱讀序列文件我有它的價值看起來像在PySpark 2.0
(string_value, json_value)
我不關心的字符串值序列文件。
在Scala中我可以讀取
val reader = sc.sequenceFile[String, String]("/path...")
val data = reader.map{case (x, y) => (y.toString)}
val jsondata = spark.read.json(data)
我有一個很難轉換這PySpark文件。我曾嘗試使用
reader= sc.sequenceFile("/path","org.apache.hadoop.io.Text", "org.apache.hadoop.io.Text")
data = reader.map(lambda x,y: str(y))
jsondata = spark.read.json(data)
錯誤是神祕的,但我可以提供他們,如果有幫助。我的問題是,在pySpark2中讀取這些序列文件的正確語法是什麼?
我想我沒有正確地將數組元素轉換爲字符串。我得到類似的錯誤,如果我不喜歡
m = sc.parallelize([(1, 2), (3, 4)])
m.map(lambda x,y: y.toString).collect()
或
m = sc.parallelize([(1, 2), (3, 4)])
m.map(lambda x,y: str(y)).collect()
感謝簡單的東西!