-1
在我看來,在大熊貓數據解析過程中支持投影(忽略或選擇列)的想法對於大熊貓來說是非常有用的。熊貓JSON數據解析投影
我發現很多JSON數據集都有大量不需要的外部字段,或者我需要解析嵌套結構中的特定字段。
我目前所做的是通過jq
管道創建一個文件,其中只包含我需要的字段。這成爲「清理」文件。
我更喜歡一種方法,我不需要每次創建一個新的清理過的文件,每次我想看一個特定的方面或一組方面,但我可以告訴熊貓加載JSON路徑.data.interesting
項目領域:A B C
。
舉個例子:
{
"data": {
"not interesting": ["milk", "yogurt", "dirt"],
"interesting": [{ "A": "moonlanding", "B": "1956", "C": 100000, "D": "meh" }]
}
嘆息,這也是我得出的結論。 – Breedly
您是否因忽略這些列而獲得大量性能? – itsmichaelwang
其實等,usecols能解決你的問題嗎? https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html – itsmichaelwang