2013-07-19 58 views
0

我想要在文本文件中獲取所有字符級Ngram的計數。 使用R我寫了一個相同的小代碼。但是代碼忽略了文本中的所有數字。任何人都可以幫助我解決這個問題。在R中執行N元時被忽略的位數

下面是代碼:

library(tau) 
temp<-read.csv("/home/aravi/Documents/sample/csv/ex.csv",header=TRUE,stringsAsFactors=F) 
r<-textcnt(temp, method="ngram",n=4L, decreasing=TRUE) 
a<-data.frame(counts = unclass(r), size = nchar(names(r))) 
b<-split(a,a$size) 
b 

這裏是輸入文件的內容:

abcd123 
appl2345e 
coun56ry 
live123 
names3423bsdf 
coun56ryas 

這是輸出:

$`1` 
    counts size 
_  18 1 
a  3 1 
e  3 1 
n  3 1 
s  3 1 
c  2 1 
l  2 1 
o  2 1 
p  2 1 
r  2 1 
u  2 1 
y  2 1 
b  1 1 
d  1 1 
f  1 1 
i  1 1 
m  1 1 
v  1 1 

$`2` 
    counts size 
_c  2 2 
_r  2 2 
co  2 2 
e_  2 2 
n_  2 2 
ou  2 2 
ry  2 2 
s_  2 2 
un  2 2 
_a  1 2 
_b  1 2 
_e  1 2 
_l  1 2 
_n  1 2 
am  1 2 
ap  1 2 
as  1 2 
bs  1 2 
df  1 2 
es  1 2 
f_  1 2 
iv  1 2 
l_  1 2 
li  1 2 
me  1 2 
na  1 2 
pl  1 2 
pp  1 2 
sd  1 2 
ve  1 2 
y_  1 2 
ya  1 2 

$`3` 
    counts size 
_co  2 3 
_ry  2 3 
cou  2 3 
oun  2 3 
un_  2 3 
_ap  1 3 
_bs  1 3 
_e_  1 3 
_li  1 3 
_na  1 3 
ame  1 3 
app  1 3 
as_  1 3 
bsd  1 3 
df_  1 3 
es_  1 3 
ive  1 3 
liv  1 3 
mes  1 3 
nam  1 3 
pl_  1 3 
ppl  1 3 
ry_  1 3 
rya  1 3 
sdf  1 3 
ve_  1 3 
yas  1 3 

$`4` 
    counts size 
_cou  2 4 
coun  2 4 
oun_  2 4 
_app  1 4 
_bsd  1 4 
_liv  1 4 
_nam  1 4 
_ry_  1 4 
_rya  1 4 
ames  1 4 
appl  1 4 
bsdf  1 4 
ive_  1 4 
live  1 4 
mes_  1 4 
name  1 4 
ppl_  1 4 
ryas  1 4 
sdf_  1 4 
yas_  1 4 

誰能告訴我是什麼失蹤或我出錯的地方。 在此先感謝。

+1

我的猜測是'textcnt'中'splits'的默認值包含「digits」,所以數字被視爲分隔符。我從來沒有使用這個軟件包,所以只是一個猜測。 –

+0

如果你讓你的問題可重現(見http://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example),將會有更多的人能夠幫助你。 –

+0

@CarlWitthoft真棒猜測。這是問題所在。分裂被認爲是數字作爲分隔符。非常感謝您的幫助。 :) –

回答

1

textcntsplits的默認值包含「數字」,因此數字將被視爲分隔符。刪除它,事情將起作用。