2014-11-20 41 views
3

此問題是對以前的問題的修改,我覺得我以不清楚的方式提出了問題。我正在檢查列V1和V2是否按行排列公共代碼。代碼以正斜槓「/」分隔。下面的函數應該從V1中獲取一個單元格,並從同一行的V2中獲取一個單元格,並將其轉換爲向量。矢量的每個元素都是一個代碼。然後函數應該檢查所獲得的兩個向量是否有共同的元素。這些元素最初是4位數字代碼。如果有兩個向量匹配的4位代碼,函數應該返回4.如果沒有共同的元素,函數應該減少每個代碼的位數,然後再次檢查。每次函數減少數字位數時,它也會降低最後返回的分數。我希望函數返回的值寫在我選擇的列中。如何將與data.frame單元格一起使用的函數應用於data.frame列

這是我的出發條件

structure(list(ID = c(2630611040, 2696102020, 2696526020), V1 = c("7371/3728", 
"2834/2833/2836/5122/8731", "3533/3541/3545/5084"), V2 = c("7379", 
"3841", "3533/3532/3531/1389/8711")), .Names = c("ID", "V1", 
"V2"), class = "data.frame", row.names = c(NA, 3L)) 

     ID      V1      V2 
1 2630611040    7371/3728      7379 
2 2696102020 2834/2833/2836/5122/8731      3841 
3 2696526020  3533/3541/3545/5084 3533/3532/3531/1389/8711 

而且我想獲得這個

  ID      V1      V2 V3 
1 2630611040    7371/3728      7379 3 
2 2696102020 2834/2833/2836/5122/8731      3841 0 
3 2696526020  3533/3541/3545/5084 3533/3532/3531/1389/8711 4 

我的功能是本

coderelat<-function(a, b){ 

a<-unique(as.integer(unlist(str_split(a, "/")))) #Transforming cells into vectors of codes 
b<-unique(as.integer(unlist(str_split(b, "/")))) 

a<-a[!is.na(a)] 
b<-b[!is.na(b)] 

if (length(a)==0 | length(b)==0) { # Check that both cells are not empty 

    ir=NA  
    return(ir) 

    } else { 


for (i in 3:1){ 

    diff<-intersect(a, b) # See how many products the shops have in common 

      if (length(diff)!=0) { #As you find a commonality, give ir the corresponding scoring 

       ir=i+1 
       break 

      } else if (i==1 & length(diff)==0) { #If in the last cycle, there is still no commonality put ir=0 

       ir=0 
       break 

      } else { # If there is no commonality and you are not in the last cycle, reduce the nr. of digits and re-check commonality again 

       a<- unique(as.integer(substr(as.character(a), 1, i))) 
       b<- unique(as.integer(substr(as.character(b), 1, i))) 

     } 

    }  
    } 
return(ir) 
} 

起步控制功能時,我手動提供單個細胞。

df$V4<-coderelat(df$V1, df$V2) 

我真的很感激任何幫助,因爲我不知道怎麼了,以使這項工作:但是,當我寫soemthing這樣是行不通的。

非常感謝提前。 Riccardo

+0

使用'dput(...)'提供您的數據非常有用(+1)。 – jlhoward 2014-11-20 21:40:21

回答

3

這是一個使用data.tables的解決方案。

get.match <-function(a,b) { 
    A <- unique(strsplit(a,"/",fixed=TRUE)[[1]]) 
    B <- unique(strsplit(b,"/",fixed=TRUE)[[1]]) 
    for (i in 4:1) if(length(intersect(substr(A,1,i),substr(B,1,i)))>0) return(i) 
    return(0L) 
} 
library(data.table) 
setDT(df)[,V3:=get.match(V1,V2),by=ID] 
df 
#   ID      V1      V2 V3 
# 1: 2630611040    7371/3728      7379 3 
# 2: 2696102020 2834/2833/2836/5122/8731      3841 0 
# 3: 2696526020  3533/3541/3545/5084 3533/3532/3531/1389/8711 4 
+0

這是一個很好的答案!非常感謝,真的。我有兩個問題需要澄清你的解決方案。首先,你能否在get.match的第二行和第三行結尾解釋[[1]]?其次,如果A = NA,那麼函數做什麼?非常感謝! – Riccardo 2014-11-20 22:23:41

+0

'strsplit(...)'創建角色扮演者列表。在你的情況下,該列表只有一個元素,所以我們提取使用'[[1]]'。 – jlhoward 2014-11-20 22:27:52

相關問題