koRpus與德國文本：編碼問題

2015-05-19 87 views 0 likes

我想使用koRpus爲其豐富多樣的可讀性測量，但我無法得到德國元音變音正確。koRpus與德國文本：編碼問題

library(koRpus) 
txt1 <- treetag("data/txt1.txt", treetagger="manual", lang="de", 
    TT.options=list(path="C:/TreeTagger", preset="de-utf8")) 
slot(txt1, "TT.res")

作品，但變音符號是「搞笑」：

   token tag   lemma lttr  wclass 
1   SchÃ¼ler NN  SchÃ¼ler 8  noun 
2   mussten VMFIN  mÃ¼ssen 7  verb 
3   auÃŸerdem ADV  auÃŸerdem 9  adverb 
...

該文件是UTF-8;在TM-包工程以相同的輸入文件完全沒有問題（但我明白，有以舊換新和koRpus之間沒有轉換...）：

library(tm) 
txt2 <- VCorpus(DirSource("C:/mini/data/", encoding="UTF-8"), 
    readerControl=list(language="ger")) 
inspect(txt2) 

<<PlainTextDocument (metadata: 7)>> 
Schüler mussten außerdem bloggen und sich mit Margaret Thatcher und Höhlenmalereien beschäftigen

我會是意見深表謝意！

來源

2015-05-19 Silvester

回答

我只是有類似的問題，並與重新編碼向量爲UTF-8，即使它已經是UTF-8

Encoding(txt1) <- "UTF-8"

不知道這是否有助於解決它......

來源

2015-06-19 15:30:32 JonGrub

不幸的是編碼（）只適用於字符向量，不適用於類「kRp.tagged」的對象。 – Silvester

相關問題

11. 編碼魔族德國特殊字符
12. 與德國人物
13. 問題在PHP德國變音json_encode
14. 文本文件編碼問題
15. MySQL到JSON：用UTF-8編碼德國特殊字符的問題
16. PHP_Calculation_Exception - 可能與Excel版本在德國
17. 使用德文字母的php和utf-8編碼問題
18. 德爾福10.1德國柏林TADODataSet的問題。查詢掛起
19. libxslt：xml到html文本編碼問題iOS
20. R中的文本編碼問題
21. ngram包的文本編碼問題
22. VB.Net MailMessage文本編碼問題
23. 帶文本編碼的問題
24. XML解析文本編碼問題
25. Java的JSON文本編碼問題
26. iOS中NSDictionary的文本編碼問題
27. 節省德國號碼
28. 問題與MySQL編碼
29. Django編碼問題與MySQL
30. 編碼問題與庫MySQLi