語料庫我創建的語料庫中的R用包TM指定語言和編碼如下:問題在DocumentTermMatrix與德語
de_DE.corpus <- Corpus(VectorSource(de_DE.sample), readerControl
= list(language="de_DE",encoding = "UTF_8"))
de_DE.corpus[36]$content
de_DE.dtm <- DocumentTermMatrix(de_DE.corpus,control = list
(encoding = 'UTF-8'))
inspect(de_DE.dtm[, grepl("grÃ", de_DE.dtm$dimnames$Terms)])
inspect(de_DE.dtm[36, ])
如果我看到的,其具有「U」的文本文檔36 de_DE.corpus[36]$content
內容顯示正確。例如「......單北京時間等模具Begründung德BehördeEINE ......」
但是,當我創建DocumentTermMatrix(我試過了編碼和語言多個選項)我越來越像「begrÃ」其中,例如,是單詞「Begründung」。執行inspect(de_DE.dtm[36, ])
後查看結果。
<<DocumentTermMatrix (documents: 1, terms: 21744)>>
Non-/sparse entries: 102/21642
Sparsity : 100%
Maximal term length: 43
Weighting : term frequency (tf)
Sample :
Terms
Docs begrà das dem der die eine einen jobcenter und zum
36 3 4 2 4 8 2 2 4 3 3
,如果有人知道如何解決這個問題我將不勝感激。感謝提前:)
哪種操作系統是你嗎? – knb
的Windows 10,R版本3.4.1,包「以舊換新」 0.7-1版本 –
我不知道發生了什麼事情,但這裏有一個潛在的線索: '文本< - 「Begründung」;編碼(文本)## [1]「UTF-8」 下面是如果我們設置了錯誤的編碼會發生什麼: '編碼(文本)< - 「latin1」;打印(文本)## [1] 「Begründung」' –