我在比較字符串PRABHAKAR SHARMA
和SHARMA KUMAR PRABHAKAR
。目的是檢查更短字符串的所有字符是否存在於另一個字符串中。如果是這樣的話,我應該得到100%的匹配,否則就是表示匹配的字符百分比的百分比。檢查一個字符串中的所有字符是否存在於r中的另一個字符串中
我試過在RecordLinkage
包中使用levenshteinSim
,但它給出了一個數字,它對應於將一個字符串更改爲另一個字符串所需的更改數。
install.packages("RecordLinkage")
require(RecordLinkage)
levenshteinSim("PRABHAKAR SHARMA","SHARMA KUMAR PRABHAKAR")
#[1] 0.3636364
我想在這種情況下100%匹配。此外,還必須複製超過1,000,000條記錄。
你的意思是所有_characters_或短字符串的所有_words_需要匹配在更長的字符串? –
如果你正在尋找單詞匹配,你可以嘗試像'long_strings < - 「SHARMA KUMAR PRABHAKAR」; short_strings < - 「PRABHAKAR SHARMA」; mapply(函數(l,s)意味着(s%in%l),strsplit(long_strings,「」),strsplit(short_strings,「」))' –
所有字符..它可能會進一步混亂起來..例如 - 「PRA SHARBHAK ARRMA」和「PRABHAKAR SHARMA KUMAR」.. – Oshan