構建一個術語文檔矩陣

我有一個csv文件，其頭部是：DATE Alert和OriginatingAddress。
我該如何建立一個基於兩列的術語文檔矩陣：DATE和Alert。
該行將有警報，該列將有一天。該條目指示一天中警報的發生次數。構建一個術語文檔矩陣

我已經試過：

library(tm) 
myCorpus <- read.csv("alert-sample-data-4-mining.csv") 
corpus <- Corpus(VectorSource(myCorpus$DATE, myCorpus$Alert)) 
TermDocumentMatrix(corpus)

但結果不是我想要的。

目前的結果我得到的是：

++++++++++++++++++++++++++++
一個術語文檔矩陣（31點而言，69124個文檔）

非/稀疏條目：2073720分之69124
稀疏：97％
最大術語長度：9
加權：術語頻率（TF）
++++++ ++++++++++++++++++++++++++++++++++++++

str（myCorpus）
'data.frame'：69124 obs。 3個變量：
$ DATEFORMAT：具有31個等級的因子「2013年3月1日」，「3/02/2013」，..：21 21 21 21 21 21 21 21 21 21 ...
$ Alert ：具有88個等級的因子「％BGP-5-ADJCHANGE」，..：49 49 49 49 49 49 49 49 49 49 ...
$ OriginatingAddress：因子w/98等級「10.112.36.12」，..： 67 67 67 67 67 67 67 67 67 67 ...

來源

2013-12-13 Jusleong

，你希望是什麼看到？ – aseidlitz

@aseidlitz我希望看到：該行將有警報，該列將有一天。在這種情況下：術語 - 文檔矩陣應該是（88條款，31個文件），我說得對嗎？ – Jusleong

我想你實際上是在要求一個2路的頻率表，而不是一個術語文檔矩陣：

myCorpus <- read.csv("alert-sample-data-4-mining.csv") 
table(myCorpus$Alert, myCorpus$DATEFORMAT)

來源

2013-12-13 00:56:12 josliber

謝謝josilber！但是我仍然需要得到非稀疏條目的結果，稀疏性，我該怎麼做？ – Jusleong

那麼，如果真的是88 x 31，稀疏表示不會那麼重要。 – josliber

構建一個術語文檔矩陣

回答

相關問題