怪異的熊貓數據操作

我正在閱讀Wes Mckinney的數據分析Python，但是我對這個數據操作感到驚訝。你可以看到所有的程序here，但我會盡量在這裏總結一下。假設你有這樣的事情：怪異的熊貓數據操作

In [133]: agg_counts = by_tz_os.size().unstack().fillna(0) 
    Out[133]: 
    a     Not Windows Windows 
    tz     245   276 
    Africa/Cairo   0   3 
    Africa/Casablanca 0   1 
    Africa/Ceuta   0   2 
    Africa/Johannesburg 0   1 
    Africa/Lusaka  0   1 
    America/Anchorage 4   1 
    ...

tz手段時區和Not Windows，並從用戶代理的原始數據中提取Windows是類，所以我們可以看到，有3個Windows用戶和0非Windows用戶從非洲/開羅收集到的數據。

然後，爲了得到「頂總時間區」，我們有：

In [134]: indexer = agg_counts.sum(1).argsort() 
Out[134]: 
tz 
            24 
Africa/Cairo      20 
Africa/Casablanca     21 
Africa/Ceuta      92 
Africa/Johannesburg    87 
Africa/Lusaka      53 
America/Anchorage     54 
America/Argentina/Buenos_Aires 57 
America/Argentina/Cordoba   26 
America/Argentina/Mendoza   55 
America/Bogota     62 
...

所以在這一點上，我還以爲，根據documentation我列求和（在sum(1)）和然後根據顯示參數的結果進行排序（通常在argsort中）。首先，我不確定這個系列中的「列」是什麼意思，因爲sum(1)實際上是總結Not Windows和Windows用戶將該值保持在與其時區相同的行中。此外，我看不到argsort值與agg_counts之間的相關性。例如，Pacific/Auckland的「argsort值」（In[134]）爲0，它只有11 Windows和Not Windows用戶的總和。 Asia/Harbin的argsort值爲1，出現的總數爲3 Windows，而非Windows用戶。

有人可以向我解釋那裏發生了什麼嗎？顯然我誤解了一些東西。

來源

2012-12-06 Robert Smith

這是一個在這本書一個非常混亂的例子） – Winand

sum(1)表示總和超過axis = 1。術語來自numpy。

對於2+維對象，0軸指的是行。在0軸上進行求和意味着對行進行求和，這相當於「垂直」求和（當查看錶格時）。

1軸指的是列。在1軸上求和意味着在列上求和，這相當於「水平」求和。

numpy.argsort返回指數，告訴你如何排序的數組的數組。例如：

In [72]: import numpy as np 

In [73]: x = np.array([521, 3, 1, 2, 1, 1, 5]) 

In [74]: np.argsort(x) 
Out[74]: array([2, 4, 5, 3, 1, 6, 0])

由np.argsort返回的數組中的2是指在x最小值是x[2]，它等於1。下一個最小的是x[4]這也是1.依此類推。

如果我們定義

totals = df.sum(1) 
print(totals) 
# tz      521 
# Africa/Cairo    3 
# Africa/Casablanca  1 
# Africa/Ceuta    2 
# Africa/Johannesburg  1 
# Africa/Lusaka   1 
# America/Anchorage  5

然後totals.argsort()被argsorting值[521, 3, 1, 2, 1, 1, 5]。我們已經看到了結果;它是一樣的numpy.argsort：

[2, 4, 5, 3, 1, 6, 0]

這些值只會做成Series，與同index爲totals：

print(totals.argsort()) 
# tz      2 
# Africa/Cairo   4 
# Africa/Casablanca  5 
# Africa/Ceuta   3 
# Africa/Johannesburg 1 
# Africa/Lusaka   6 
# America/Anchorage  0

關聯的totals.index這個argsort指數沒有出現具有內在含義，但是如果您計算totals[totals.argsort()]，您會看到按排序順序排列的totals行：

print(totals[totals.argsort()]) 
# Africa/Casablanca  1 
# Africa/Johannesburg  1 
# Africa/Lusaka   1 
# Africa/Ceuta    2 
# Africa/Cairo    3 
# America/Anchorage  5 
# tz      521

來源

2012-12-06 22:11:57 unutbu

正確！非常感謝。在這種情況下argsort似乎不是很有用，因爲它沒有提到第一列。這很混亂。 –

-1

我喜歡unutbu的澄清。在上面的第二個表格print（totals.argsort（））中，忽略第一列。我們需要的是第二列給出我們需要的職位。這太酷了！

這裏是採取方法的一些例子：。https://pandas-docs.github.io/pandas-docs-travis/advanced.html#take-methods

來源

2015-12-18 20:42:10 Kiso

怪異的熊貓數據操作

回答

相關問題