我是熊貓新手,這是我在stackoverflow上的第一個問題,我試圖用大熊貓做一些分析。從多個記錄創建一個熊貓數據框
我有一些文本文件需要處理數據記錄。文件的每一行都與記錄匹配,記錄哪些字段位於固定位置,並且長度爲固定數量的字符。在同一個文件中有不同種類的記錄,根據記錄的類型,所有記錄共享第一個字段,它們是兩個字符。舉個例子:
Some file:
01Jhon Smith 555-1234
03Cow Bos primigenius taurus 00401
01Jannette Jhonson 00100000000
...
field start length
type 1 2 *common to all records, example: 01 = person, 03 = animal
name 3 10
surname 13 10
phone 23 8
credit 31 11
fill of spaces
我正在寫一些代碼來一個記錄轉換爲詞典:
person1 = {'type': 01, 'name': = 'Jhon', 'surname': = 'Smith', 'phone': '555-1234'}
person2 = {'type': 01, 'name': 'Jannette', 'surname': 'Jhonson', 'credit': 1000000.00}
animal1 = {'type': 03, 'cname': 'cow', 'sciname': 'Bos....', 'legs': 4, 'tails': 1 }
如果一個字段爲空(用空格填充)不會有在字典中) 。
對於所有記錄中的一種,我想用dicts鍵創建一個pandas DataFrame作爲列名,我嘗試使用pandas.DataFrame.from_dict()而沒有成功。
這裏來了我的問題:有沒有辦法用熊貓來做到這一點,所以字母鍵成爲列名?是否有其他標準方法來處理這類文件?
謝謝,_list of_dicts是關鍵。這些文件是數百Mb的gzip壓縮文件和幾個Gbs未壓縮的文件,因此將逐行讀取並追加到相應的DataFrame中。 – tinproject