當我有已經使用Python那樣json.dump方法獲得此JSON文件_corrupt_record錯誤讀取JSON文件到星火
{
"a": 1,
"b": 2
}
。 現在,我想使用pyspark將此文件讀入Spark中的DataFrame。下面的文件,我在做這個
SC = SparkContext()
SQLC = SQLContext(SC)
DF = sqlc.read.json( 'my_file.json')
打印df.show()
print語句吐出這雖然:
+---------------+
|_corrupt_record|
+---------------+
| {|
| "a": 1, |
| "b": 2|
| }|
+---------------+
任何人都知道發生了什麼,爲什麼它不能正確解釋文件?
如何解決它,如果我的JSON文件是巨大的(一對夫婦的10萬行),它有很多的紀錄(列或特徵)之間的新線路?謝謝。 –