我希望你能幫我解決一個我正在崩潰的問題。在R中的data.frame的行上的jaccard(或任何相似性)索引
我有一個data.frame有三列:appl
,cod
,ipc
。 此數據集有多個行,具有相同的appl
,每行對應於一個cod
,它與一個ipc
相關聯。後者可能是一個或多個值的列表。 appl
和cod
是整數值。 一個例子
row appl cod ipc
11 | 1206 | 3857183 | 16
12 | 1220 | 1063002 | 29
13 | 1299 | 46437 | c("26", "31", "33")
14 | 1317 | 685895 | c("10", "13", "14", "16")
15 | 1317 | 790606 | c("10", "13", "14", "16")
我需要一些還告訴我,爲appl
每個值,是多麼相似的ipc
列表的組成。 我發現Jaccard指數是一個合適的數學指標,但僅適用於幾組數據。我想爲每個的每個唯一對計算Jaccard指數,然後計算每個平均值。
我發現set_similarity
函數用於兩組之間的Jaccard指數計算。
但是,我不知道如何實際執行這個策略 - 或者其他任何。
如何實現正確的像
for (each `appl`)
{ put all `ipc` in a list,
take all possible unique combinations,
apply `set_similarity` on them,
take the average }
?
我查了很多次,已經回答了關於該主題的問題,但是我不能成功應用它們。
由於