0
我想要在文本文件中獲取所有字符級Ngram的計數。 使用R我寫了一個相同的小代碼。但是代碼忽略了文本中的所有數字。任何人都可以幫助我解決這個問題。在R中執行N元時被忽略的位數
下面是代碼:
library(tau)
temp<-read.csv("/home/aravi/Documents/sample/csv/ex.csv",header=TRUE,stringsAsFactors=F)
r<-textcnt(temp, method="ngram",n=4L, decreasing=TRUE)
a<-data.frame(counts = unclass(r), size = nchar(names(r)))
b<-split(a,a$size)
b
這裏是輸入文件的內容:
abcd123
appl2345e
coun56ry
live123
names3423bsdf
coun56ryas
這是輸出:
$`1`
counts size
_ 18 1
a 3 1
e 3 1
n 3 1
s 3 1
c 2 1
l 2 1
o 2 1
p 2 1
r 2 1
u 2 1
y 2 1
b 1 1
d 1 1
f 1 1
i 1 1
m 1 1
v 1 1
$`2`
counts size
_c 2 2
_r 2 2
co 2 2
e_ 2 2
n_ 2 2
ou 2 2
ry 2 2
s_ 2 2
un 2 2
_a 1 2
_b 1 2
_e 1 2
_l 1 2
_n 1 2
am 1 2
ap 1 2
as 1 2
bs 1 2
df 1 2
es 1 2
f_ 1 2
iv 1 2
l_ 1 2
li 1 2
me 1 2
na 1 2
pl 1 2
pp 1 2
sd 1 2
ve 1 2
y_ 1 2
ya 1 2
$`3`
counts size
_co 2 3
_ry 2 3
cou 2 3
oun 2 3
un_ 2 3
_ap 1 3
_bs 1 3
_e_ 1 3
_li 1 3
_na 1 3
ame 1 3
app 1 3
as_ 1 3
bsd 1 3
df_ 1 3
es_ 1 3
ive 1 3
liv 1 3
mes 1 3
nam 1 3
pl_ 1 3
ppl 1 3
ry_ 1 3
rya 1 3
sdf 1 3
ve_ 1 3
yas 1 3
$`4`
counts size
_cou 2 4
coun 2 4
oun_ 2 4
_app 1 4
_bsd 1 4
_liv 1 4
_nam 1 4
_ry_ 1 4
_rya 1 4
ames 1 4
appl 1 4
bsdf 1 4
ive_ 1 4
live 1 4
mes_ 1 4
name 1 4
ppl_ 1 4
ryas 1 4
sdf_ 1 4
yas_ 1 4
誰能告訴我是什麼失蹤或我出錯的地方。 在此先感謝。
我的猜測是'textcnt'中'splits'的默認值包含「digits」,所以數字被視爲分隔符。我從來沒有使用這個軟件包,所以只是一個猜測。 –
如果你讓你的問題可重現(見http://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example),將會有更多的人能夠幫助你。 –
@CarlWitthoft真棒猜測。這是問題所在。分裂被認爲是數字作爲分隔符。非常感謝您的幫助。 :) –