2017-03-04 50 views
-1

我正在使用tm包創建文檔的語料庫,我想使用譜聚類(kernlab包)進行文本分類。R:用於文本分類的譜聚類

所以,如果我有一個語料庫

my_corpus = VCorpus(DirSource(directory="C:/Users/me/Desktop/Documents", pattern="txt")

而且我想用specc功能,採用下列參數

specc(x, centers, kernel)

我該怎麼把爲執行譜聚類第一個參數?該文檔說x必須是「要聚類的數據矩陣,或者要擬合的模型的符號描述,或類kernelMatrix的內核矩陣或者字符向量列表」。但簡單地把my_corpus不起作用。所以我很困惑,如果你有一個文件的語料庫,這是如何工作的。

回答

0
  1. 選擇一個合適的內核

  2. 計算內核矩陣

  3. 譜聚類

  4. 評估,評估,評估。聚類很可能會失敗,但會產生結果。在文本上,任何結果都可以被解釋爲看起來不錯...請參閱標題中的'閱讀茶葉'主題建模的兩篇出版物!

+0

我的問題是如何計算核心矩陣你知道嗎? – vdvaxel

+0

無論你想要什麼樣的方式,這很簡單,你需要K(i,j)用於任何兩個文件,將它們存儲在矩陣中 –

+0

你對K(i,j )雖然有標準函數將矩陣轉換爲內核矩陣 – vdvaxel