返回從熊貓多個值適用於數據幀

我使用的是熊貓DataFrame做逐行t檢驗，按照本例：返回從熊貓多個值適用於數據幀

import numpy 
import pandas 

df = pandas.DataFrame(numpy.log2(numpy.randn(1000, 4), 
         columns=["a", "b", "c", "d"]) 

df = df.dropna()

現在，假設我有「一」和「 b「作爲一個組，」c「和」d「在另一個組中，我正在按行進行t檢驗。這對大熊貓來說相當微不足道，使用apply和axis = 1。但是，如果我的函數沒有聚合，我可以返回相同形狀的DataFrame;如果聚合，我可以返回一個Series。

正常情況下，我只是輸出p值（所以，聚合），但我想生成基於其他計算（換句話說，返回兩個值）的附加值。我當然可以做兩次運行，首先彙總p值，然後再做其他工作，但我想知道是否有更高效的方式來處理數據，因爲數據相當大。

作爲計算的一個例子，一個hypotethical功能將是：

from scipy.stats import ttest_ind 

def t_test_and_mean(series, first, second): 
    first_group = series[first] 
    second_group = series[second] 
    _, pvalue = ttest_ind(first_group, second_group) 

    mean_ratio = second_group.mean()/first_group.mean() 

    return (pvalue, mean_ratio)

然後用

df.apply(t_test_and_mean, first=["a", "b"], second=["c", "d"], axis=1)

當然在這種情況下它返回與兩個元組作爲值的單個系列調用。

相反，ny預期的輸出將是一個DataFrame，它有兩列，一列用於第一個結果，另一列用於第二列。這是可能的，或者我必須爲兩次計算做兩次運行，然後將它們合併在一起？

來源

2012-05-25 Einar

爲什麼您首先使用'apply'？你的結果是一個新的'DataFrame'，它具有與輸入（行和列）不同的形狀，因此它是一個全新的obj。您可以讓't_test_and_mean'接受您的輸入數據框（以及要分組的列）並返回1行2列數據框，而不使用「apply」。 – lbolla

@lbolla對，最終我在代碼中完成了這個工作。 – Einar

返回一個Series而不是元組，應該產生一個新的多列DataFrame。例如，

return pandas.Series({'pvalue': pvalue, 'mean_ratio': mean_ratio})

來源

2012-05-25 23:48:46 Garrett

我會在星期一重試，但如果我記得正確，它會嘗試強制原始列結構（從而以NAs結束）。 – Einar

@garrett - 如何確保從函數返回的seried將保留其「預期」的順序。我的用例是 - 從函數返回這個系列，我使用df.to_csv將它保存到一個csv文件。除了當然是愚蠢的，並將它們命名爲A，B，C，D以保留其在csv文件中的自然順序。 – ekta

來指定列的順序，嘗試使用列表而不是字典來構造系列，例如：'pandas.Series（[pvalue，mean_ratio]，index = ['pvalue'，'mean_ratio']）' – Garrett

返回從熊貓多個值適用於數據幀

回答

相關問題