如果我有以下格式(存儲在大熊貓數據幀)的數據資料,基本類別和商品的蛞蝓的歸一化形式:Denormalise使用熊貓
pandas.DataFrame:
categories slug wares
0 [developer, mac, web] alex.payne [macbook-pro, cinema-display, readynas-nv-plus...
1 [mac, musician] jona.bechtolt [audio-kontrol-1, powershot-sd1000, live, mda-...
2 [game, suit, windows] gabe.newell [oa-desk, beyond-tv, windows-xp, office, visua...
3 [developer, mac, software] steven.frank [mac-pro, macbook-air, apple-tv, itunes, addre...
而且我的意圖是要繪製圖表與商品相關的類別的,我所需要的數據在去歸一化格式,在一些這樣的格式:
categories wares slug
0 developer macbook-pro alex.payne
1 mac macbook-pro alex.payne
2 web macbook-pro alex.payne
3 developer cinema-display alex.payne
4 mac cinema-display alex.payne
5 web cinema-display alex.payne
6 developer readynas-nv-plus alex.payne
什麼是將數據從格式轉換上方到下方的一個最好的方法,優選地,一個,這也利用了numpy的內部,所以它很快。
我的方法是相當幼稚的,循環遍歷數據框中的每一行,維護一個元組列表,然後將它傳遞給pandas.DataFrame構造函數。你的任何建議可能會變得越來越快,所以建議離開!
我也在考慮熊貓DataFrame中的這種數據的替代表示,特別是稀疏矩陣。但是我認爲這對於groupby查詢尤其更好。如果還有其他格式,或者稀疏矩陣爲這種彙總查詢提供了更好的結果,請提出如何解決這個問題。
這是整個事情,對於那些感興趣的人:http://j.mp/lp-usesthis我最終沒有按照我原先的意圖去做反規範化處理,而只是繞過感興趣的列。但任何能夠更好地規範化的能力都會使它變得更好。
ü可以顯示你當前的代碼? – Jeff
相關:http://stackoverflow.com/questions/17116814/pandas-how-do-i-split-text-in-a-column-into-multiple-columns/17116976#17116976 –