2015-04-22 45 views
0

findAssocs()不起作用,如下所示。 「清醒」和「做夢」在書中經常出現。r:爲什麼findAssocs()不起作用?

> docs <- tm_map(docs, stemDocument) 
> dtm <- DocumentTermMatrix(docs) 
> freq <- colSums(as.matrix(dtm)) 
> ord <- order(freq) 
> freq[tail(ord)] 
one experi will can lucid dream 
287 312 363 452 1018 2413 
> freq[head(ord)] 
abbey abdomin abdu abraham absent abus 
1  1  1  1  1  1 
> findAssocs(dtm, "dream", corlimit=0.6) 
$dream 
numeric(0) 
> findAssocs(dtm, "dream", corlimit=0.1) 
$dream 
numeric(0) 
> findAssocs(dtm, "lucid", corlimit=0.1) 
$lucid 
numeric(0) 
> findAssocs(dtm, "lucid", corlimit=0.6) 
$lucid 
numeric(0) 
> 

該語料庫是一個單一的文件,一本書的文本版本。此功能是否至少需要兩份文件?如果是這樣,如果我把這本書分成兩半,我會得到關於整本書的相關性,還是關於這兩部分如何相互比較?

回答

1

它統計文件的數量,忽略重複的發生。

分割例如成句子或段落。