agrep

0熱度

1回答

我有一個位置矢量，我試圖用正確的位置名稱來消除歧義。對於這個例子中我僅使用兩個消歧的位置壽： agrepl('Au', c("Austin, TX", "Houston, TX"), max.distance = .000000001, ignore.case = T, fixed = T) [1] TRUE TRUE 幫助頁面說max.distance是允許的匹配最大距離。用整數表

1熱度

1回答

如何在adist和agrep函數中設置成本參數？

我需要一些幫助來理解這些函數的參數。我從幫助中拿出了榜樣。 ## To see the transformation counts for the Levenshtein distance: drop(attr(adist("kitten", "sitting", counts = TRUE), "counts")) # ins del sub # 1 0 2 ins，表示插入; del

2熱度

1回答

agrep字符串匹配R

我有一些產品名稱的兩個列表。我的問題是「操作系統」與「系統」，「冷卻系統」等匹配。但它只能與「操作」，「操作系統」相匹配。另一個例子是「Key Board」應該與「key」或「KB」匹配，但不能與「Mother Board」或「Board」匹配。如何重視第一個詞而不是第二個詞？我在R中使用了agrep()它也與第一個例子中的「系統」和「冷卻系統」相匹配。如何避免這種匹配？是否有任何功能/方法

1熱度

1回答

通過最佳字符串匹配將數據框中的字符串變量分組以創建子集

我有一個帶有國家名稱列的數據框。即使是同一個國家，這些名字也會有所不同，例如小寫字母，缺少一些字母，一些額外的字母和兒子等。所以我需要在類似的模式下對它們進行分組。例如，我有兩個屬於同一類別的觀察值:(「巴西」，「巴西」），我需要將它們放在一起。我不能手工做這件事，因爲整個數據框是由大約10 000個觀測數據組成的。在做出那些在一個類別中相似的觀察之後，我需要從這些類別中創建一些子集。是否有

0熱度

2回答

如何不用sapply改變重名？

我有一個文本向量與已註冊的藥物名稱，另一個與新葯名稱。我想知道新葯是否看起來像現有的藥物。例如，如果supercure是可以由firm1或firm2生產的藥物，並且supercure firm1 1000mg和supercure firm2 500mg已經註冊，那麼supercure firm1 500 mg應該與它們兩者相關聯。 agrep允許R中做這樣的匹配，並sapply允許這樣做對每

-1熱度

1回答

使用agrep返回一個不同的變量

我正在使用agrep從一個表到另一個表進行查找，但是我想返回的結果不是要匹配的值。他們來自另一列/變量。我現在AGREP語法：所以現在：personalfolders$DOBMatch == c(290, 312)但我想要的是從另一個變量的數據幀返回值，我在尋找一個稱爲：allees2$PartPathmatch1爲每個返回的行。我知道agrep的value = TRUE變量，但我相信只返回查詢

1熱度

1回答

與agrep匹配的模糊字符串

由於數據在遺留系統中存儲錯誤，因此我使用R和agrep（）來匹配公司名稱列表 - 因爲數據在傳統系統中存儲錯誤 - 沒有第四種常規格式，公司在同一級別上錄製作爲客戶，這意味着每個新客戶都有一個新的公司條目，這導致一家公司擁有許多不同的公司名稱 - 這在很多情況下都能正常工作。有時，特別是對於短字符串，我得到的 - 至少對我來說 - 奇怪的比賽，例如（ABC是第一家名稱）： ABC ABAXIS

0熱度

1回答

爲什麼R中的agrep找不到最佳匹配？

我正在嘗試使用agrep命令在R中進行字符串匹配。但是我擔心它會在找到一個好匹配時停下來，而不是優化找到最好的匹配。雖然我有可能瞭解它的工作原理是不正確的。我下面的例子重現了這個問題，雖然很粗糙。 example1 <- c("height","weight") example2 <- c("height","weight") y <- c("","") for(i in 1: 2){

1熱度

1回答

R中的模糊映射

我正嘗試使用agrep命令進行模糊匹配。我有一個數據框，其中一列包含觀衆響應和另一個數據框，其中列出了段和子段。列受衆響應包含作爲子段名稱的單詞。例如： pattern$audience [1] "(Deleted) Semasio Â» DE: Intent Â» Christmas Shopping" [2] "(Old) AddThis - UK Â» Auto Â» General

3熱度

1回答

字符串匹配記錄來統計數據幀中的所有實例

我想從匹配某些條件的數據框中的行中提取所有字符串，例如每行中匹配「玉米」的字數。這是輸入。 install.packages('stringr') library(stringr) dataset <- c("corn", "cornmeal", "corn on the cob", "meal") y<- c('corn',"corn","mean","meal") id<- c(1,2