agrep

    0熱度

    1回答

    我有一個位置矢量,我試圖用正確的位置名稱來消除歧義。 對於這個例子中我僅使用兩個消歧的位置壽: agrepl('Au', c("Austin, TX", "Houston, TX"), max.distance = .000000001, ignore.case = T, fixed = T) [1] TRUE TRUE 幫助頁面說max.distance是 允許的匹配最大距離。用整數表

    1熱度

    1回答

    我需要一些幫助來理解這些函數的參數。我從幫助中拿出了榜樣。 ## To see the transformation counts for the Levenshtein distance: drop(attr(adist("kitten", "sitting", counts = TRUE), "counts")) # ins del sub # 1 0 2 ins,表示插入; del

    2熱度

    1回答

    我有一些產品名稱的兩個列表。我的問題是「操作系統」與「系統」,「冷卻系統」等匹配。但它只能與「操作」,「操作系統」相匹配。另一個例子是「Key Board」應該與「key」或「KB」匹配,但不能與「Mother Board」或「Board」匹配。 如何重視第一個詞而不是第二個詞? 我在R中使用了agrep()它也與第一個例子中的「系統」和「冷卻系統」相匹配。如何避免這種匹配? 是否有任何功能/方法

    1熱度

    1回答

    我有一個帶有國家名稱列的數據框。即使是同一個國家,這些名字也會有所不同,例如小寫字母,缺少一些字母,一些額外的字母和兒子等。 所以我需要在類似的模式下對它們進行分組。例如,我有兩個屬於同一類別的觀察值:(「巴西」,「巴西」),我需要將它們放在一起。我不能手工做這件事,因爲整個數據框是由大約10 000個觀測數據組成的。 在做出那些在一個類別中相似的觀察之後,我需要從這些類別中創建一些子集。 是否有

    0熱度

    2回答

    我有一個文本向量與已註冊的藥物名稱,另一個與新葯名稱。我想知道新葯是否看起​​來像現有的藥物。 例如,如果supercure是可以由firm1或firm2生產的藥物,並且supercure firm1 1000mg和supercure firm2 500mg已經註冊,那麼supercure firm1 500 mg應該與它們兩者相關聯。 agrep允許R中做這樣的匹配,並sapply允許這樣做對每

    -1熱度

    1回答

    我正在使用agrep從一個表到另一個表進行查找,但是我想返回的結果不是要匹配的值。他們來自另一列/變量。我現在AGREP語法: 所以現在:personalfolders$DOBMatch == c(290, 312)但我想要的是從另一個變量的數據幀返回值,我在尋找一個稱爲:allees2$PartPathmatch1爲每個返回的行。我知道agrep的value = TRUE變量,但我相信只返回查詢

    1熱度

    1回答

    由於數據在遺留系統中存儲錯誤,因此我使用R和agrep()來匹配公司名稱列表 - 因爲數據在傳統系統中存儲錯誤 - 沒有第四種常規格式,公司在同一級別上錄製作爲客戶,這意味着每個新客戶都有一個新的公司條目,這導致一家公司擁有許多不同的公司名稱 - 這在很多情況下都能正常工作。 有時,特別是對於短字符串,我得到的 - 至少對我來說 - 奇怪的比賽,例如(ABC是第一家名稱): ABC ABAXIS

    0熱度

    1回答

    我正在嘗試使用agrep命令在R中進行字符串匹配。 但是我擔心它會在找到一個好匹配時停下來,而不是優化找到最好的匹配。雖然我有可能瞭解它的工作原理是不正確的。我下面的例子重現了這個問題,雖然很粗糙。 example1 <- c("height","weight") example2 <- c("height","weight") y <- c("","") for(i in 1: 2){

    1熱度

    1回答

    我正嘗試使用agrep命令進行模糊匹配。我有一個數據框,其中一列包含觀衆響應和另一個數據框,其中列出了段和子段。列受衆響應包含作爲子段名稱的單詞。例如: pattern$audience [1] "(Deleted) Semasio » DE: Intent » Christmas Shopping" [2] "(Old) AddThis - UK » Auto » General

    3熱度

    1回答

    我想從匹配某些條件的數據框中的行中提取所有字符串,例如每行中匹配「玉米」的字數。這是輸入。 install.packages('stringr') library(stringr) dataset <- c("corn", "cornmeal", "corn on the cob", "meal") y<- c('corn',"corn","mean","meal") id<- c(1,2