2015-05-18 30 views
3

我正在Python中運行lda庫,並且正在運行此示例。有人知道X,詞彙和標題的格式嗎?我無法找到文檔。與Python的LDA - 輸入文件

import numpy as np 
import lda 
X = lda.datasets.load_reuters() 
vocab = lda.datasets.load_reuters_vocab() 
titles = lda.datasets.load_reuters_titles() 

回答

6

X是矩陣,其中行是標題,而列是詞彙表。這是標題文字的一個詞袋錶示。

X 
Out[8]: 
array([[1, 0, 1, ..., 0, 0, 0], 
     [7, 0, 2, ..., 0, 0, 0], 
     [0, 0, 0, ..., 0, 0, 0], 
     ..., 
     [1, 0, 1, ..., 0, 0, 0], 
     [1, 0, 1, ..., 0, 0, 0], 
     [1, 0, 1, ..., 0, 0, 0]], dtype=int32)  

在上面的矩陣中,每一行都是個別標題的單詞表示。每列代表一個特定的詞的例子。

vocab[:5] 
Out[5]: ('church', 'pope', 'years', 'people', 'mother') 

所以,X矩陣中的每一行i,col j給出了第i個標題中特定單詞的頻率。

titles[:1] 
Out[11]: ('0 UK: Prince Charles spearheads British royal revolution. LONDON 1996-08-20',) 

標題U:查爾斯王子......一次提到教會一詞,教皇0次,幾年一次,等等。

In [13]: type(titles) 
Out[13]: tuple 

In [14]: type(vocab) 
Out[14]: tuple 

In [15]: type(X) 
Out[15]: numpy.ndarray