我有一個csv文件,其頭部是:DATE Alert和OriginatingAddress。
我該如何建立一個基於兩列的術語文檔矩陣:DATE和Alert。
該行將有警報,該列將有一天。該條目指示一天中警報的發生次數。構建一個術語文檔矩陣
我已經試過:
library(tm)
myCorpus <- read.csv("alert-sample-data-4-mining.csv")
corpus <- Corpus(VectorSource(myCorpus$DATE, myCorpus$Alert))
TermDocumentMatrix(corpus)
但結果不是我想要的。
目前的結果我得到的是:
++++++++++++++++++++++++++++
一個術語文檔矩陣(31點而言,69124個文檔)
非/稀疏條目:2073720分之69124
稀疏:97%
最大術語長度:9
加權:術語頻率(TF)
++++++ ++++++++++++++++++++++++++++++++++++++
str(myCorpus)
'data.frame':69124 obs。 3個變量:
$ DATEFORMAT:具有31個等級的因子「2013年3月1日」,「3/02/2013」,..:21 21 21 21 21 21 21 21 21 21 ...
$ Alert :具有88個等級的因子「%BGP-5-ADJCHANGE」,..:49 49 49 49 49 49 49 49 49 49 ...
$ OriginatingAddress:因子w/98等級「10.112.36.12」,..: 67 67 67 67 67 67 67 67 67 67 ...
,你希望是什麼看到? – aseidlitz
@aseidlitz我希望看到:該行將有警報,該列將有一天。在這種情況下:術語 - 文檔矩陣應該是(88條款,31個文件),我說得對嗎? – Jusleong