0
我想使用koRpus爲其豐富多樣的可讀性測量,但我無法得到德國元音變音正確。koRpus與德國文本:編碼問題
library(koRpus)
txt1 <- treetag("data/txt1.txt", treetagger="manual", lang="de",
TT.options=list(path="C:/TreeTagger", preset="de-utf8"))
slot(txt1, "TT.res")
作品,但變音符號是 「搞笑」:
token tag lemma lttr wclass
1 Schüler NN Schüler 8 noun
2 mussten VMFIN müssen 7 verb
3 außerdem ADV außerdem 9 adverb
...
該文件是UTF-8;在TM-包工程以相同的輸入文件完全沒有問題(但我明白,有以舊換新和koRpus之間沒有轉換...):
library(tm)
txt2 <- VCorpus(DirSource("C:/mini/data/", encoding="UTF-8"),
readerControl=list(language="ger"))
inspect(txt2)
<<PlainTextDocument (metadata: 7)>>
Schüler mussten außerdem bloggen und sich mit Margaret Thatcher und Höhlenmalereien beschäftigen
我會是意見深表謝意!
不幸的是 編碼() 只適用於字符向量,不適用於類「kRp.tagged」的對象。 – Silvester