我想測量兩個Conference
相關度量(AcceptanceRate
和)之間的相關性。我有以下兩個DataFrames(已經下令/等級相應):使用python的stats.kendalltau函數
df_if
:
Conference FiveYrIF
0 SIGMOD Conference 112.685585
1 KDD 103.674543
2 CHI 99.453096
3 SIGIR 68.967753
4 WWW 65.715631
5 SODA 60.151959
6 DAC 42.076365
7 ICCAD 39.906361
8 CIKM 33.232224
9 DATE 26.578906
10 INFOCOM 22.694122
11 Winter Simulation Conference 17.448830
12 SAC 10.646007
df_ar
:
Conference AcceptanceRate
0 CIKM 15
1 SIGIR 16
2 INFOCOM 19.7
3 KDD 21
4 DAC 22
5 DATE 23
6 WWW 24
7 CHI 25
8 ICCAD 27
9 SIGMOD Conference 27
10 SAC 29
11 SODA 29.5
12 Winter Simulation Conference 54
我想這兩個指標比較(和AcceptanceRates
)使用我以前使用的stats.kendalltau
方法,但使用年份(數字)的排名而不是使用會議(文本)的排名,如此處所示。
我試過如下:
from scipy.stats import kendalltau
kendalltau(df_if['Conference'].values, df_ar['Conference'].values)
但它返回以下錯誤:
TypeError: merge sort not available for item 0
我不太清楚我在做什麼錯了,這是我的理解是什麼,我我的比較只是序數(有序)而不是可比數字。我們比較訂單,不是嗎?
我試圖避免必須返回到數據庫併爲每個會議設置某種數字ID,以便我可以在可能的情況下執行此操作。
請添加完整的追溯,而不僅僅是錯誤描述。 – cel