R中

2017-06-18 50 views 0 likes

我有以下問題轉換ASCII到UTF-8 stringi：R中

library(stringi) 
x_1<-"P N001361/01" 
x_2<-"Р N001361/01" 
x_1==x_2 
[1] FALSE 

> stri_enc_mark(x_1) 
[1] "ASCII" 
> stri_enc_mark(x_2) 
[1] "UTF-8"

然後我嘗試：

stri_encode(x_1,"ASCII","UTF-8",to_raw=FALSE)==x_2

但是，這仍然無法正常工作。也許有人可以建議如何使這兩個字符串相同（我試圖通過x_2合併x_1）。

來源

2017-06-18 Vitalijs

回答

問題不在於轉換。問題是x_2的第一個字母是https://unicode-table.com/en/0420/。

是清楚的，當你運行：

> stri_encode(x_2,"UTF-8", "ASCII",to_raw=FALSE) 
[1] "\032 N001361/01" 
Warning message: 
In stri_encode(x_2, "UTF-8", "ASCII", to_raw = FALSE) : 
    the Unicode codepoint \U00000420 cannot be converted to destination encoding

因此，您需要的字符顯式轉換爲實際的字母「P」

x_2_rep <- stri_replace_all_regex(x_2, parse(text = '\U00000420'), "P") 
x_1 == x_2_rep 
## TRUE

來源

2017-06-18 16:57:42

但是做什麼，如果我有很多這樣的字符串，即我有一個數據集與x_1和第二個與x_2和我想合併在x_2上，即我不知道事先會有後來的P – Vitalijs

相關問題

1. 的R - R中
2. R＆figshare：當R中
3. R中的錯誤（）在R
4. R：麻煩從r中
5. R中的ODS功能R
6. 在等待R中的R
7. R-如何在r中
8. R中
9. R中
10. R中

11. R中
12. R中
13. R中
14. R中
15. R中
16. R中
17. R中
18. r中
19. R中
20. R中
21. R中
22. R中
23. R中
24. R中
25. R中
26. R中
27. R中
28. R中
29. R中
30. R中