我有準備匹配兩個字符串的下一個算法。 library(stringdist)
qgrams('perimetrico','perimetrico peri',q=2)
pe ri tr er im me o et ic co p
V1 1 2 1 1 1 1 0 1 1 1 0
V2 2 3 1 2 1 1 1 1 1 1 1
至於林而言,這是用於計算ocurrencies
我使用stringdist()合併相似的名字,並有工作用lapply,但它採取11小時通過50萬行運行,我想看看data.table解決方案是否會更快。這裏有一個例子,我的嘗試性解決方案,到目前爲止,從讀數here,here,here,here,並且here建的,但我不是很拉斷: library(stringdist)
library(data.table)
data("mtcars")
m
我回答這些twoquestions,並得到適當的解決方案,但我不得不使用fuzzy_join,到我從fuzzyjoin::stringdist_join提取match_fun經過麻煩的論點。 我得到的錯誤信息是: # Error in mf(rep(u_x, n_y), rep(u_y, each = n_x), ...): object 'ignore_case' not found
不知道
我需要計算2個向量中每個單詞之間的Jaccard相似度。每個單詞由每個單詞組成。並提取最相似的單詞。 這裏是我不好不好慢代碼: txt1 <- c('The quick brown fox jumps over the lazy dog')
txt2 <- c('Te quick foks jump ovar lazzy dogg')
words <- strsplit(as.charact