2015-05-19 87 views
0

我想使用koRpus爲其豐富多樣的可讀性測量,但我無法得到德國元音變音正確。koRpus與德國文本:編碼問題

library(koRpus) 
txt1 <- treetag("data/txt1.txt", treetagger="manual", lang="de", 
    TT.options=list(path="C:/TreeTagger", preset="de-utf8")) 
slot(txt1, "TT.res") 

作品,但變音符號是 「搞笑」:

   token tag   lemma lttr  wclass 
1   Schüler NN  Schüler 8  noun 
2   mussten VMFIN  müssen 7  verb 
3   außerdem ADV  außerdem 9  adverb 
... 

該文件是UTF-8;在TM-包工程以相同的輸入文件完全沒有問題(但我明白,有以舊換新和koRpus之間沒有轉換...):

library(tm) 
txt2 <- VCorpus(DirSource("C:/mini/data/", encoding="UTF-8"), 
    readerControl=list(language="ger")) 
inspect(txt2) 

<<PlainTextDocument (metadata: 7)>> 
Schüler mussten außerdem bloggen und sich mit Margaret Thatcher und Höhlenmalereien beschäftigen 

我會是意見深表謝意!

回答

0

我只是有類似的問題,並與重新編碼向量爲UTF-8,即使它已經是UTF-8

Encoding(txt1) <- "UTF-8" 

不知道這是否有助於解決它......

+0

不幸的是 編碼() 只適用於字符向量,不適用於類「kRp.tagged」的對象。 – Silvester