與Python的LDA - 輸入文件

我正在Python中運行lda庫，並且正在運行此示例。有人知道X，詞彙和標題的格式嗎？我無法找到文檔。與Python的LDA - 輸入文件

import numpy as np 
import lda 
X = lda.datasets.load_reuters() 
vocab = lda.datasets.load_reuters_vocab() 
titles = lda.datasets.load_reuters_titles()

來源

2015-05-18 user1011332

X是矩陣，其中行是標題，而列是詞彙表。這是標題文字的一個詞袋錶示。

X 
Out[8]: 
array([[1, 0, 1, ..., 0, 0, 0], 
     [7, 0, 2, ..., 0, 0, 0], 
     [0, 0, 0, ..., 0, 0, 0], 
     ..., 
     [1, 0, 1, ..., 0, 0, 0], 
     [1, 0, 1, ..., 0, 0, 0], 
     [1, 0, 1, ..., 0, 0, 0]], dtype=int32)

在上面的矩陣中，每一行都是個別標題的單詞表示。每列代表一個特定的詞的例子。

vocab[:5] 
Out[5]: ('church', 'pope', 'years', 'people', 'mother')

所以，X矩陣中的每一行i，col j給出了第i個標題中特定單詞的頻率。

titles[:1] 
Out[11]: ('0 UK: Prince Charles spearheads British royal revolution. LONDON 1996-08-20',)

標題U：查爾斯王子......一次提到教會一詞，教皇0次，幾年一次，等等。

In [13]: type(titles) 
Out[13]: tuple 

In [14]: type(vocab) 
Out[14]: tuple 

In [15]: type(X) 
Out[15]: numpy.ndarray

來源

2015-05-19 03:42:10 user2707389

與Python的LDA - 輸入文件

回答

相關問題