從多個記錄創建一個熊貓數據框

我是熊貓新手，這是我在stackoverflow上的第一個問題，我試圖用大熊貓做一些分析。從多個記錄創建一個熊貓數據框

我有一些文本文件需要處理數據記錄。文件的每一行都與記錄匹配，記錄哪些字段位於固定位置，並且長度爲固定數量的字符。在同一個文件中有不同種類的記錄，根據記錄的類型，所有記錄共享第一個字段，它們是兩個字符。舉個例子：

Some file: 
01Jhon  Smith  555-1234           
03Cow   Bos primigenius taurus  00401     
01Jannette Jhonson   00100000000        
... 


field start length 
type   1  2 *common to all records, example: 01 = person, 03 = animal 
name   3  10 
surname  13  10 
phone  23  8 
credit  31  11 
fill of spaces

我正在寫一些代碼來一個記錄轉換爲詞典：

person1 = {'type': 01, 'name': = 'Jhon', 'surname': = 'Smith', 'phone': '555-1234'} 
person2 = {'type': 01, 'name': 'Jannette', 'surname': 'Jhonson', 'credit': 1000000.00} 
animal1 = {'type': 03, 'cname': 'cow', 'sciname': 'Bos....', 'legs': 4, 'tails': 1 }

如果一個字段爲空（用空格填充）不會有在字典中）。

對於所有記錄中的一種，我想用dicts鍵創建一個pandas DataFrame作爲列名，我嘗試使用pandas.DataFrame.from_dict（）而沒有成功。

這裏來了我的問題：有沒有辦法用熊貓來做到這一點，所以字母鍵成爲列名？是否有其他標準方法來處理這類文件？

來源

2013-07-19 tinproject

爲了從字典中的數據框，你可以通過字典的列表：

>>> person1 = {'type': 01, 'name': 'Jhon', 'surname': 'Smith', 'phone': '555-1234'} 
>>> person2 = {'type': 01, 'name': 'Jannette', 'surname': 'Jhonson', 'credit': 1000000.00} 
>>> animal1 = {'type': 03, 'cname': 'cow', 'sciname': 'Bos....', 'legs': 4, 'tails': 1 } 
>>> pd.DataFrame([person1]) 
    name  phone surname type 
0 Jhon 555-1234 Smith  1 
>>> pd.DataFrame([person1, person2]) 
    credit  name  phone surname type 
0  NaN  Jhon 555-1234 Smith  1 
1 1000000 Jannette  NaN Jhonson  1 
>>> pd.DataFrame.from_dict([person1, person2]) 
    credit  name  phone surname type 
0  NaN  Jhon 555-1234 Smith  1 
1 1000000 Jannette  NaN Jhonson  1

對於兩個不同格式的文件混合的更基本的問題，並假設這些文件並沒有那麼大，我們不能讀取它們並將它們存儲在內存中，我會使用StringIO來創建一個有點像文件但只有我們想要的行的對象，然後使用read_fwf（固定寬度文件）。例如：

from StringIO import StringIO 

def get_filelike_object(filename, line_prefix): 
    s = StringIO() 
    with open(filename, "r") as fp: 
     for line in fp: 
      if line.startswith(line_prefix): 
       s.write(line) 
    s.seek(0) 
    return s

然後

>>> type01 = get_filelike_object("animal.dat", "01") 
>>> df = pd.read_fwf(type01, names="type name surname phone credit".split(), 
        widths=[2, 10, 10, 8, 11], header=None) 
>>> df 
    type  name surname  phone  credit 
0  1  Jhon Smith 555-1234  NaN 
1  1 Jannette Jhonson  NaN 100000000

應該工作。當然你也可以在pandas有史以來看到它們之前將文件分成不同的類型，這可能是最簡單的。

來源

2013-07-19 17:35:43 DSM

謝謝，_list of_dicts是關鍵。這些文件是數百Mb的gzip壓縮文件和幾個Gbs未壓縮的文件，因此將逐行讀取並追加到相應的DataFrame中。 – tinproject

從多個記錄創建一個熊貓數據框

回答

相關問題