我想搜索基於地名數據庫,我可以用R:刪除
download.file('http://download.geonames.org/export/dump/IT.zip', destfile = 'IT.zip')
unzip('IT.zip', exdir = 'IT')
require(readr)
it_gn <- read_delim("IT/IT.txt", "\t", escape_double = FALSE, col_names = FALSE, trim_ws = TRUE)
欄上下載意大利地理實體文字寫在非拉丁字母的單詞(但包括附加符號)X4
包括可供選擇地理名稱的版本,包括其他語言的版本。
例如
it_gn$X4[it_gn$X1 == 2522713]
# [1] "Vittoira,Vittoria,vu~ittoria,ヴィットーリア"
由於我對文檔的搜索是在意大利我想刪除寫入除拉丁字母其他字母的所有名稱,但包括意大利使用變音符號:-à , -è , -é , -ì , -ò , -ù
-á , -í , -ó , -ú
也(這些在意大利正式使用,但他們可能會出現)。但目前還不清楚我應該用哪個正則表達式來識別非拉丁字母。
我試圖申請this答案,但正則表達式似乎沒有任何區別...
grepl('[^\\x00-\\x7F]', 'ヴィットーリア')
# [1] TRUE
grepl('[^\\x00-\\x7F]', 'Vittoria')
# [1] TRUE
在R''\ x20''中將顯示爲'「」'。我收到了一個關於nul字符的錯誤,但是你的'[^ \ x01- \ x7F]'是非常有幫助的。 –