我正在爲API中的可能大型數據抓取構建一些基本支持代碼。結果作爲每個指標值的字典出現。即訂單時填充熊貓數據框的最快方法
[(index0, {col3:val3, col0:val0, col12:val12, ...}), (index1,{...}), ...]
然而,雖然索引出來的順序列沒有。另外,並非所有列都必須適用於所有索引。
列以正確的順序col_list = [col0, col1, ...]
還有indicies index_list = [index0, index1, ...]
我的傾向是剛剛預定義數據框
df = DataFrame(index=index_list, columns=col_list)
,只是通過df.loc[idx, col] = val
分配數據最終是很重要的可能如果數據稀疏,則是最快的方法。但是,數據幾乎肯定是密集的。
是否有任何替代構造函數會顯着更快?
您是否嘗試過使用'pd.read_json'? (這是有效的JSON?)請給一個實際/假裝,但完整的片段來玩。 –
不幸的是,它不是json。該API是非標準的,有點won which,這就是爲什麼我試圖在上面有點模糊。考慮一下,API給出index0然後是cols/vals的詞典,然後是index1和cols/vals的詞典等。 – rhaskett
我首先給出了API給我的列和索引列表。 – rhaskett