2017-07-19 60 views
-1

在我看來,在大熊貓數據解析過程中支持投影(忽略或選擇列)的想法對於大熊貓來說是非常有用的。熊貓JSON數據解析投影

我發現很多JSON數據集都有大量不需要的外部字段,或者我需要解析嵌套結構中的特定字段。

我目前所做的是通過jq管道創建一個文件,其中只包含我需要的字段。這成爲「清理」文件。

我更喜歡一種方法,我不需要每次創建一個新的清理過的文件,每次我想看一個特定的方面或一組方面,但我可以告訴熊貓加載JSON路徑.data.interesting項目領域:A B C

舉個例子:

{ 
"data": { 
    "not interesting": ["milk", "yogurt", "dirt"], 
    "interesting": [{ "A": "moonlanding", "B": "1956", "C": 100000, "D": "meh" }] 
} 

回答

0

不幸的是,它好像有沒有簡單的方法來做到這一點的負載,但如果你用好後立即做...

# drop by index 
df.drop(df.columns[[1, 2]], axis=1, inplace=True) 

# drop by name 
df.drop(['B', 'C'], axis=1, inplace=True) 
+0

嘆息,這也是我得出的結論。 – Breedly

+0

您是否因忽略這些列而獲得大量性能? – itsmichaelwang

+0

其實等,usecols能解決你的問題嗎? https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html – itsmichaelwang