stringdist

0熱度

1回答

我已經打印出一個帶有stringdistmatrix（c（））的矩陣，效果很好，但現在我需要R來向我顯示值爲< = 3的所有案例。在矩陣值？提前感謝！

1熱度

1回答

我有準備匹配兩個字符串的下一個算法。 library(stringdist) qgrams('perimetrico','perimetrico peri',q=2) pe ri tr er im me o et ic co p V1 1 2 1 1 1 1 0 1 1 1 0 V2 2 3 1 2 1 1 1 1 1 1 1 至於林而言，這是用於計算ocurrencies

2熱度

1回答

比較項目通過對所有列等行和環 - R的

我使用stringdist()合併相似的名字，並有工作用lapply，但它採取11小時通過50萬行運行，我想看看data.table解決方案是否會更快。這裏有一個例子，我的嘗試性解決方案，到目前爲止，從讀數here，here，here，here，並且here建的，但我不是很拉斷： library(stringdist) library(data.table) data("mtcars") m

0熱度

1回答

R-傳遞參數到fuzzyjoin的match_fun功能:: fuzzy_join

我回答這些twoquestions，並得到適當的解決方案，但我不得不使用fuzzy_join，到我從fuzzyjoin::stringdist_join提取match_fun經過麻煩的論點。我得到的錯誤信息是： # Error in mf(rep(u_x, n_y), rep(u_y, each = n_x), ...): object 'ignore_case' not found 不知道

1熱度

1回答

基於部分匹配文本重新整形和合並data.frame（包stringdist）

我使用舊的列表名稱。人們的名字是不同的，但實際上，這些人是同一個人。我使用stringdist包來計算字符串之間的距離，以找到最大的名字可能是相同的。我的數據的一個小例子： data <- data.frame(column1 = c("Lalande, Pierre","Lalande, P","Tertre, Girard ","Tertre Girard du"), co

2熱度

4回答

在一個矢量上的字符串

我想用字符串來識別在同一矢量中最大距離爲1的所有字符串，然後發佈匹配。下面是數據的一個示例：開始數據幀： a = c("tom", "tomm", "alex", "alexi", "chris", "jen", "jenn", "michell") b = c(NA) df = data.frame(a,b) 期望的結果： a = c("tom", "tomm", "alex", "a

4熱度

1回答

計算2個向量中每個單詞之間的Jaccard相似度

我需要計算2個向量中每個單詞之間的Jaccard相似度。每個單詞由每個單詞組成。並提取最相似的單詞。這裏是我不好不好慢代碼： txt1 <- c('The quick brown fox jumps over the lazy dog') txt2 <- c('Te quick foks jump ovar lazzy dogg') words <- strsplit(as.charact

1熱度

1回答

stringdist_join結果在NAs

我正在試驗stringdist軟件包以便進行模糊連接，並遇到一個我不明白的問題，但未能找到答案。我想用「dl」方法連接這兩個數據表，它會產生一個NA，我完全不明白。也許你們其中一個對此有解釋。代碼： library(fuzzyjoin) test1<-as.data.frame(test1<-c("techniker")) test2<-as.data.frame(test2<-c("te

1熱度

2回答

R模糊字符串匹配返回基於匹配字符串的特定列

我有兩個大型數據集，一個大約50萬條記錄，另一個大約70K。這些數據集具有地址。如果較小數據集中的任何地址存在於較大數據集中，我想匹配。正如你所想象的，地址可以用不同的方式和不同的案例/拼寫等書寫。除了這個地址可以複製，如果只寫到建築物的水平。所以不同的單位有相同的地址。我做了一些研究並找出了可以使用的packagedist。我做了一些工作，並設法根據距離獲得最接近的匹配。但是，我無法返回地址匹

1熱度

1回答

RecordLinkage - R一個向量。不符合自我

如果我有名字的一個載體，說： a = c("tom", "tommy", "alex", "tom", "alexis", "Alex", "jenny", "Al", "michell") 我想使用levenshteinSim或類似的得到這個矢量中的相似性得分。但是，我不想讓它自我評分。例如，"tom" #1得分爲"tom" #3。並且不要爲"tom" #1反對"tom" #1得分，所以不要