我有一個名爲'str'的字符串,我從加載RDS文件中獲得。ngram包的文本編碼問題
此字符串包含法語口音,在R studio控制檯中顯示得很好。 但是,在此字符串上使用ngram包時,重音字符不會顯示正確。
如果我直接在R中定義一個重音字符串,它工作得很好(請參閱下面的代碼中的'str2')。
我該如何解決這個問題,例如,在我的原始字符串上強制使用新的編碼。
str # console displays "crédit hypothécaire en juillet"
ng <- ngram(str, n = 2,sep= " ")
get.phrasetable(ng)
# ngrams freq prop
# 1 hypothécaire en 1 0.3333333
# 2 crédit hypothécaire 1 0.3333333
# 3 en juillet 1 0.3333333
str2 <- "crédit hypothécaire en juillet"
ng2 <- ngram(str2, n = 2,sep= " ")
get.phrasetable(ng2)
# ngrams freq prop
# 1 hypothécaire en 1 0.3333333
# 2 crédit hypothécaire 1 0.3333333
# 3 en juillet 1 0.3333333
編輯:
建議鏈接(handling special characters e.g. accents in R)未提供的驗證答案解決我的問題,所以它不是一個重複的問題,但它確實提供了一些線索,請參見下面
答案
首先想到,不要使用str,因爲它是R中的一個內部函數。請參閱'?str'表示我的意思。 –
[處理特殊字符例如在R的口音](http://stackoverflow.com/questions/9511281/handling-special-characters-eg-accents-in-r) –
@ErikSchutte它用於所有的ngram包的例子,所以我保持一致: ) –