熊貓df嵌套json

相當類似的問題被問到there，並得到了在R的user1609452出色的回答。但仍然是一個具體的問題。我想擴大這個問題。讓我們採取幾乎相同的表（MyData）：熊貓df嵌套json

ID Location L_size L_color Station S_size S_color  Category C_size C_color 
1  Alpha  6  #000000  Zeta  3  #333333  Big  0.63  #306100 
2  Alpha  6  #000000  Zeta  3  #333333  Medium  0.43  #458b00 
3  Alpha  6  #000000  Zeta  3  #333333  small  0.47  #6aa232 
4  Alpha  6  #000000  Yota  3  #4c4c4c  Big  0.85  #306100 
5  Alpha  6  #000000  Yota  3  #4c4c4c  Medium  0.19  #458b00 
6  Alpha  6  #000000  Yota  3  #4c4c4c  small  0.89  #6aa232 
7  Beta  6  #191919  Theta  4  #666666  Big  0.09  #306100 
8  Beta  6  #191919  Theta  4  #666666  Medium  0.33  #458b00 
9  Beta  6  #191919  Theta  4  #666666  small  0.79  #6aa232 
10  Beta  6  #191919  Theta  4  #666666  Big  0.89  #306100 
11  Beta  6  #191919  Meta  3  #7f7f7f  Medium  0.71  #458b00 
12  Beta  6  #191919  Meta  3  #7f7f7f  small  0.59  #6aa232

每個類別都有一個或多個屬性（這裏只有一個：大小）。我想要什麼，這是每個父母在JSON文件/兒童報出大小：

 { 
"name":"MyData", 
"size":12, 
"color":"#ffffff" 
"children":[ 
    { 
    "name":"Alpha", 
    "size":6, 
    "color":"#000000" 
    "children":[ 
     { 
      "name":"Zeta", 
      "size":3, 
      "color":"#333333" 
      "children":[ 
       { 
       "name":"Big", 
       "size":0.63, 
       "color":"#306100" 
       }, 
...

等我不能讓它在R，也沒有在大熊貓......你知道嗎？

編輯：我的目標是將不同的信息鏈接到兒童，不僅尺寸。我爲每個主列添加了一個顏色列。爲了清晰起見，我的初始數據框很大，並且有很多信息，但我無法將其粘貼到此處。

第二次編輯：給克里斯回答它幾乎奏效！偉大的更新。仍然json文件沒有正確上傳到我的JavaScript文件。該文件似乎是顛倒（MYDATA是在結束），並從父母的信息是之前和之後的兒童的信息：

{ 
    "children":[ 
     { 
     "color":"#000000", 
     "children":[ 
      { 
       "color":"#4c4c4c", 
       "children":{ 
        "color":"#306100", 
        "name":"Big", 
        "size":0.85 
       }, 
       "name":"Yota", 
       "size":3 
      }, 
      { 
       "color":"#333333", 
       "children":{ 
        "color":"#306100", 
        "name":"Big", 
        "size":0.63 
       }, 
       "name":"Zeta", 
       "size":3 
      } 
     ], 
     "name":"Alpha", 
     "size":6 
     }, 
     { 
     "color":"#191919", 
     "children":[ 
      { 
       "color":"#7f7f7f", 
       "children":{ 
        "color":"#458b00", 
        "name":"Medium", 
        "size":0.71 
       }, 
       "name":"Meta", 
       "size":3 
      }, 
      { 
       "color":"#666666", 
       "children":{ 
        "color":"#306100", 
        "name":"Big", 
        "size":0.09 
       }, 
       "name":"Theta", 
       "size":4 
      } 
     ], 
     "name":"Beta", 
     "size":6 
     } 
    ], 
    "name":"MyData", 
    "size":12

最後編輯時間：正常工作。克里斯在他更新的時候刪除了他編寫的腳本的最後部分，所以在這裏。謝謝克里斯！

data = {'name': 'MyData', 
     'size': len(MyData), 
     'children': make_children(MyData, levels)} 

print json.dumps(data)

來源

2015-07-21 Sara

首先，您需要某種形式的組成每個級別的映射。我使用的列的元組定義了"name"和你想要的那個級別的其他屬性的前綴，就像這樣。

levels = [('Location', 'L_'), 
      ('Station', 'S_'), 
      ('Category', 'C_')]

然後，它是一個類似的遞歸函數，只是現在額外的列在每一步被拾起（發現與前綴開頭列）和荏苒的列/值被添加到樹。有足夠的空間來清理它，但至少應該提供一個想法。

def make_children(df, levels): 
    if len(levels) == 1: 
     name, prefix = levels[0] 
     level_cols = [name] + [c for c in df if c.startswith(prefix)] 
     df = df[level_cols] 
     key_names = ['name'] + [c.strip(prefix) for c in level_cols[1:]] 
     return dict(zip(key_names, df.values[0])) 
    else: 
     h, tail = levels[0], levels[1:] 
     name, prefix = h 
     level_cols = [name] + [c for c in df if c.startswith(prefix)] 

     data = [] 
     for keys, df_gb in df.groupby(level_cols): 
      key_names = ['name'] + [c.strip(prefix) for c in level_cols[1:]] 
      d = dict(zip(key_names, keys)) 
      d['children'] = make_children(df_gb, tail) 
      data.append(d) 
     return data

來源

2015-07-22 00:31:34 chrisb

謝謝克里斯。您找到了避免上述鏈接中的R腳本的好方法。我的例子不夠好，因爲你的腳本巧妙地從df的長度中取出了大小。我想要的不僅僅是尺寸......我會編輯這個問題...... – Sara

克里斯，我認爲我們到了那裏，但雖然json是有效的，但它沒有正確上傳我的javascript。看到我的第二個更新。謝謝！ – Sara

@Sara - JSON是無序的，所以這不是問題。但是，一切都需要成爲字符串。在轉換爲字典/ JSON之前，嘗試執行'df = df.astype（str）'。 – chrisb

熊貓df嵌套json

回答

相關問題