2013-12-13 154 views
0

我有一個csv文件,其頭部是:DATE Alert和OriginatingAddress。
我該如何建立一個基於兩列的術語文檔矩陣:DATE和Alert。
該行將有警報,該列將有一天。該條目指示一天中警報的發生次數。構建一個術語文檔矩陣

我已經試過:

library(tm) 
myCorpus <- read.csv("alert-sample-data-4-mining.csv") 
corpus <- Corpus(VectorSource(myCorpus$DATE, myCorpus$Alert)) 
TermDocumentMatrix(corpus) 

但結果不是我想要的。

目前的結果我得到的是:

++++++++++++++++++++++++++++
一個術語文檔矩陣(31點而言,6912​​4個文檔)

非/稀疏條目:2073720分之69124
稀疏:97%
最大術語長度:9
加權:術語頻率(TF)
++++++ ++++++++++++++++++++++++++++++++++++++

str(myCorpus)
'data.frame':69124 obs。 3個變量:
$ DATEFORMAT:具有31個等級的因子「2013年3月1日」,「3/02/2013」​​,..:21 21 21 21 21 21 21 21 21 21 ...
$ Alert :具有88個等級的因子「%BGP-5-ADJCHANGE」,..:49 49 49 49 49 49 49 49 49 49 ...
$ OriginatingAddress:因子w/98等級「10.112.36.12」,..: 67 67 67 67 67 67 67 67 67 67 ...

+0

,你希望是什麼看到? – aseidlitz

+0

@aseidlitz我希望看到:該行將有警報,該列將有一天。在這種情況下:術語 - 文檔矩陣應該是(88條款,31個文件),我說得對嗎? – Jusleong

回答

0

我想你實際上是在要求一個2路的頻率表,而不是一個術語文檔矩陣:

myCorpus <- read.csv("alert-sample-data-4-mining.csv") 
table(myCorpus$Alert, myCorpus$DATEFORMAT) 
+0

謝謝josilber!但是我仍然需要得到非稀疏條目的結果,稀疏性,我該怎麼做? – Jusleong

+0

那麼,如果真的是88 x 31,稀疏表示不會那麼重要。 – josliber