我想要一個函數,它返回矢量匹配子序列的初始指示。例如:在較大的矢量中匹配序列
y <- c("a","a","a","b","c")
multi_match(c("a","a"), y)
# [1] 1 2
multi_match(c("a","b"), y)
# [1] 3
我有一個粗略的實現,但我覺得我必須重新發明輪子,它有點笨重。有沒有更好的方法來實現這一點,還是有一個預先存在的功能在某處具有類似的功能?
multi_match <- function(x, table){
# returns initial indicies of all substrings in table which match x
if(length(table) < length(x)){
return(NA)
}else{
check_mat <- matrix(nrow = length(x), ncol = length(table))
for(i in 1:length(x)){
check_mat[i,] <- table %in% x[i]
}
out <- vector(length = length(table))
for(i in 1:(length(table)-(length(x)-1))){
check <- vector(length=length(x))
for(j in 1:length(x)){
check[j] <- check_mat[j,(i+(j-1))]
}
out[i] <- all(check)
}
if(length(which(out))==0){
return(NA)
}else{
return(which(out))
}
}
}
有很多字符串中的Bioconductor的包'BioStrings'匹配功能,雖然這一點也適用「字符串',即'長度爲1的字符向量',而不是你擁有的向量。 http://www.bioconductor.org/packages/2.12/bioc/html/Biostrings.html – 2013-04-26 19:51:29