我試圖用我的大數據框(all_health)替換使用gsub,sub和其他人的村莊名稱,但是我一直在收集一些沒有正確更改的村莊。例如, , 我首先想要在數據中標準化所有村莊的拼寫(vlg)。 如:替換整個村莊的名字?
all_health$vlg<-gsub("FALAJALQBA","FALAJALQABAIL",all_health$vlg)
all_health$vlg<-gsub("FALAJALQ","FALAJALQABAIL",all_health$vlg)
all_health$vlg<-gsub("FALAJALQBA","FALAJALQABAIL",all_health$vlg)
all_health$vlg<-gsub("FALAJALQA","FALAJALQABAIL",all_health$vlg)
all_health$vlg<-gsub("FALAJALQBAEIL","FALAJALQABAIL",all_health$vlg)
all_health$vlg<-gsub("FALAJALQBAIL","FALAJALQABAIL",all_health$vlg)
all_health$vlg<-gsub("FALAJALQUBAIL","FALAJALQABAIL",all_health$vlg)
然後我想改變所產生的村名到另一個名稱:
all_health$vlg<-gsub("FALAJALQABAIL","ALKHUWAYRIYAH",all_health$vlg)
然而
,當我重新chaecked村莊的名字,我發現新的不同(錯過了)村莊如(ALKHUWAYRIYAHBAILUBAIL),看起來像一個村莊的組合..
我有很多其他村莊的表現一樣。
我使用正確的功能嗎? 有人會幫我嗎?
是否有一個原因,您正在使用「GSUB」,而不只是「亞健康」的?你能解釋一下all_health $ vlg中每個元素的含義嗎?它是單一村莊名稱,還是多個名稱的連接?一個最小的工作示例會很有幫助。立即看起來「FALAJALQ。*」將是一個更有用的模式來匹配。 – dynamo
謝謝bdh_dtu,我使用了sub函數並得到了相同的結果,vlg變量包含了許多不同拼寫的村莊名稱,至少有200個不同的條目。有時候這些名字是單一的,有時又長又複雜。問題在於,這些名字都是阿拉伯語,醫院的每個職員(我從中得到數據)都有他自己的英文拼寫。 –