1
我有一系列值,我正在計算給定表的每一行的皮爾森相關性。熊貓系列與整個數據框之間的相關性
我該怎麼做?
例子:
import pandas as pd
v = [-1, 5, 0, 0, 10, 0, -7]
v1 = [1, 0, 0, 0, 0, 0, 0]
v2 = [0, 1, 0, 0, 1, 0, 0]
v3 = [1, 1, 0, 0, 0, 0, 1]
s = pd.Series(v)
df = pd.DataFrame([v1, v2, v3], columns=['a', 'b', 'c', 'd', 'e', 'f', 'g'])
# Here I expect ot do df.corrwith(s) - but won't work
使用Series.corr()
來計算,預計產量
-0.1666666666666666 # correlation with the first row
0.83914639167827343 # correlation with the second row
-0.35355339059327379 # correlation with the third row
謝謝,什麼是新手的錯誤......正是我所需要的 – bluesummers
沒問題怎麼樣,如果數據框有更多的列,你會忽略它嗎?這意味着你只想計算只有匹配列進行索引的相關性,而忽略其他索引。 – bluesummers
請檢查編輯是否爲你想要的。 – jezrael