pyspark：減小JSON變量的大小

我想分析一個包含Twitter API數據的JSON文件。該文件爲2GB，因此需要很長時間才能加載或試圖運行任何分析。pyspark：減小JSON變量的大小

所以在pyspark我加載它：

df = sqlContext.read.json('/data/statuses.log.2014-12-30.gz')

這大約需要20分鐘一樣任何進一步的分析，所以我想看看數據集的只是一小部分，所以我可以快速測試我的腳本和容易。我試圖

df = df.head(1000)

但這似乎以某種方式改變數據集，所以當我嘗試

print(df.groupby('lang').count().sort(desc('count')).show())

我得到的錯誤

AttributeError: 'list' object has no attribute 'groupby'

有沒有什麼辦法可以減少的大小數據，所以我可以隨身攜帶，無需每次都等待年齡？

2017-05-09 MelesMeles

如果加載需要時間，嘗試當你'read.json'指定架構。不指定模式使得它掃描數據以找出數據類型可能是什麼，這可以解釋爲什麼它需要很長時間。 – Pushkr

解決它：

df = df.limit(1000)

2017-05-09 12:43:05 MelesMeles

回答