0
目前正與約25萬的數據集工作rows.The的utils的包adist功能數小時(8個)R- adist花費太長時間運行
代碼中運行:
master <- read.csv("Master.csv",header=TRUE)
companies <- read.csv("Clean Companies.csv",header=TRUE)
dirty<- subset(master,select=c("Company"))
comp<- subset(companies,select=c("COMPANY.CLEAN"))
dim(dirty)
> 246774 1
#To test one can use:
#dirty = data.frame(name= c("ABC","*/BC","HO**E...","OFFi....ce"))
#comp = data.frame(info_names= c("ABC","HOME","OFFICE"))
mat <- adist(dirty1[, 1], comp[, 1]);
data<-cbind.data.frame(orig=dirty[, 1], new=comp[apply(mat, 1, which.min), 1])
有沒有辦法做得更好?
據我所知'adist'從utils軟件包。你知道這個計算的距離有多少? – Roland
一個10GB +矩陣。 n×m矩陣,n = nrow(髒),m = nrow(comp) – user3243478
那麼,你有它。所以,你可能有超過10萬億次的比較。你最好的選擇可能確實是並行化。 – Roland