在R中執行N元時被忽略的位數

我想要在文本文件中獲取所有字符級Ngram的計數。使用R我寫了一個相同的小代碼。但是代碼忽略了文本中的所有數字。任何人都可以幫助我解決這個問題。在R中執行N元時被忽略的位數

下面是代碼：

library(tau) 
temp<-read.csv("/home/aravi/Documents/sample/csv/ex.csv",header=TRUE,stringsAsFactors=F) 
r<-textcnt(temp, method="ngram",n=4L, decreasing=TRUE) 
a<-data.frame(counts = unclass(r), size = nchar(names(r))) 
b<-split(a,a$size) 
b

這裏是輸入文件的內容：

abcd123 
appl2345e 
coun56ry 
live123 
names3423bsdf 
coun56ryas

這是輸出：

$`1` 
    counts size 
_  18 1 
a  3 1 
e  3 1 
n  3 1 
s  3 1 
c  2 1 
l  2 1 
o  2 1 
p  2 1 
r  2 1 
u  2 1 
y  2 1 
b  1 1 
d  1 1 
f  1 1 
i  1 1 
m  1 1 
v  1 1 

$`2` 
    counts size 
_c  2 2 
_r  2 2 
co  2 2 
e_  2 2 
n_  2 2 
ou  2 2 
ry  2 2 
s_  2 2 
un  2 2 
_a  1 2 
_b  1 2 
_e  1 2 
_l  1 2 
_n  1 2 
am  1 2 
ap  1 2 
as  1 2 
bs  1 2 
df  1 2 
es  1 2 
f_  1 2 
iv  1 2 
l_  1 2 
li  1 2 
me  1 2 
na  1 2 
pl  1 2 
pp  1 2 
sd  1 2 
ve  1 2 
y_  1 2 
ya  1 2 

$`3` 
    counts size 
_co  2 3 
_ry  2 3 
cou  2 3 
oun  2 3 
un_  2 3 
_ap  1 3 
_bs  1 3 
_e_  1 3 
_li  1 3 
_na  1 3 
ame  1 3 
app  1 3 
as_  1 3 
bsd  1 3 
df_  1 3 
es_  1 3 
ive  1 3 
liv  1 3 
mes  1 3 
nam  1 3 
pl_  1 3 
ppl  1 3 
ry_  1 3 
rya  1 3 
sdf  1 3 
ve_  1 3 
yas  1 3 

$`4` 
    counts size 
_cou  2 4 
coun  2 4 
oun_  2 4 
_app  1 4 
_bsd  1 4 
_liv  1 4 
_nam  1 4 
_ry_  1 4 
_rya  1 4 
ames  1 4 
appl  1 4 
bsdf  1 4 
ive_  1 4 
live  1 4 
mes_  1 4 
name  1 4 
ppl_  1 4 
ryas  1 4 
sdf_  1 4 
yas_  1 4

誰能告訴我是什麼失蹤或我出錯的地方。在此先感謝。

來源

2013-07-19 Aravind Asok

我的猜測是'textcnt'中'splits'的默認值包含「digits」，所以數字被視爲分隔符。我從來沒有使用這個軟件包，所以只是一個猜測。 –

如果你讓你的問題可重現（見http://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example），將會有更多的人能夠幫助你。 –

@CarlWitthoft真棒猜測。這是問題所在。分裂被認爲是數字作爲分隔符。非常感謝您的幫助。 :) –

textcnt中splits的默認值包含「數字」，因此數字將被視爲分隔符。刪除它，事情將起作用。

來源

2013-07-19 12:37:50

在R中執行N元時被忽略的位數

回答

相關問題