2014-10-12 98 views
2

我有兩個按發生次數排序的單詞列表斯皮爾曼等級與缺失值的相關性?

排序是通過計數在不同時間點採樣的兩個文件中的每個單詞生成的。

我想計算一下spearman來查看第一個文件在第二個文件中的排列順序。

例如:

文件一:1)2)去3)工作

文件B:1)2)工作3)去

因爲排序是不同的我會沒有達到1.0的得分,但還有一個暗示這兩個樣本非常相似

我的問題現在缺少值。文件B中可能不存在文件A的一個詞。在這種情況下,我可以使用spearman排名嗎?或者是另一種更適合的相關性衡量標準?

回答

2

說到排名,在你的應用程序中,你不需要缺少值。當一個單詞出現在一個文件中但沒有出現在另一個文件中時,您可以在最後一個文件中排名(或等於多個缺失值的最後排名)。

但是,我不確定對許多缺失值的Spearman值的影響(很多並列最後排名)。您可以考慮在原始頻率相對頻率上使用標準相關/迴歸,而不是斯皮爾曼係數。

實施例...

說文件x具有M = 113個字和文件y具有n = 234。我們可以建立相對詞頻表所示:

word x y
is 5/113 23/234 the 4/113 45/234 a 4/113 17/234 farnarkling 1/113 0/234 elbow 0/113 2/234 ... =============================== TOTAL 113/113 234/234

你可以這樣計算:

word x y u=x*y v=x*x
is 5/113 23/234 115/26442 25/12769 the 4/113 45/234 180/26442 16/12769 a 4/113 17/234 68/26442 16/12769 farnarkling 1/113 0/234 0/26442 1/12769 elbow 0/113 2/234 0/26442 0/12769 ... ======================================================== TOTAL 113/113 234/234 s=(sum of u) t=(sum of v)

你的答案是由S/T給出。接近m/n的值意味着良好的對應關係。

一些可能有用的鏈接:

https://statistics.laerd.com/statistical-guides/spearmans-rank-order-correlation-statistical-guide.php

http://en.wikipedia.org/wiki/Simple_linear_regression