stringdist

    0熱度

    1回答

    我已經打印出一個帶有stringdistmatrix(c())的矩陣,效果很好,但現在我需要R來向我顯示值爲< = 3的所有案例。在矩陣值? 提前感謝!

    1熱度

    1回答

    我有準備匹配兩個字符串的下一個算法。 library(stringdist) qgrams('perimetrico','perimetrico peri',q=2) pe ri tr er im me o et ic co p V1 1 2 1 1 1 1 0 1 1 1 0 V2 2 3 1 2 1 1 1 1 1 1 1 至於林而言,這是用於計算ocurrencies

    2熱度

    1回答

    我使用stringdist()合併相似的名字,並有工作用lapply,但它採取11小時通過50萬行運行,我想看看data.table解決方案是否會更快。這裏有一個例子,我的嘗試性解決方案,到目前爲止,從讀數here,here,here,here,並且here建的,但我不是很拉斷: library(stringdist) library(data.table) data("mtcars") m

    0熱度

    1回答

    我回答這些twoquestions,並得到適當的解決方案,但我不得不使用fuzzy_join,到我從fuzzyjoin::stringdist_join提取match_fun經過麻煩的論點。 我得到的錯誤信息是: # Error in mf(rep(u_x, n_y), rep(u_y, each = n_x), ...): object 'ignore_case' not found 不知道

    1熱度

    1回答

    我使用舊的列表名稱。人們的名字是不同的,但實際上,這些人是同一個人。我使用stringdist包來計算字符串之間的距離,以找到最大的名字可能是相同的。 我的數據的一個小例子: data <- data.frame(column1 = c("Lalande, Pierre","Lalande, P","Tertre, Girard ","Tertre Girard du"), co

    2熱度

    4回答

    我想用字符串來識別在同一矢量中最大距離爲1的所有字符串,然後發佈匹配。下面是數據的一個示例: 開始數據幀: a = c("tom", "tomm", "alex", "alexi", "chris", "jen", "jenn", "michell") b = c(NA) df = data.frame(a,b) 期望的結果: a = c("tom", "tomm", "alex", "a

    4熱度

    1回答

    我需要計算2個向量中每個單詞之間的Jaccard相似度。每個單詞由每個單詞組成。並提取最相似的單詞。 這裏是我不好不好慢代碼: txt1 <- c('The quick brown fox jumps over the lazy dog') txt2 <- c('Te quick foks jump ovar lazzy dogg') words <- strsplit(as.charact

    1熱度

    1回答

    我正在試驗stringdist軟件包以便進行模糊連接,並遇到一個我不明白的問題,但未能找到答案。 我想用「dl」方法連接這兩個數據表,它會產生一個NA,我完全不明白。也許你們其中一個對此有解釋。 代碼: library(fuzzyjoin) test1<-as.data.frame(test1<-c("techniker")) test2<-as.data.frame(test2<-c("te

    1熱度

    2回答

    我有兩個大型數據集,一個大約50萬條記錄,另一個大約70K。這些數據集具有地址。如果較小數據集中的任何地址存在於較大數據集中,我想匹配。正如你所想象的,地址可以用不同的方式和不同的案例/拼寫等書寫。除了這個地址可以複製,如果只寫到建築物的水平。所以不同的單位有相同的地址。我做了一些研究並找出了可以使用的packagedist。 我做了一些工作,並設法根據距離獲得最接近的匹配。但是,我無法返回地址匹

    1熱度

    1回答

    如果我有名字的一個載體,說: a = c("tom", "tommy", "alex", "tom", "alexis", "Alex", "jenny", "Al", "michell") 我想使用levenshteinSim或類似的得到這個矢量中的相似性得分。但是,我不想讓它自我評分。例如,"tom" #1得分爲"tom" #3。並且不要爲"tom" #1反對"tom" #1得分,所以不要