X是矩陣,其中行是標題,而列是詞彙表。這是標題文字的一個詞袋錶示。
X
Out[8]:
array([[1, 0, 1, ..., 0, 0, 0],
[7, 0, 2, ..., 0, 0, 0],
[0, 0, 0, ..., 0, 0, 0],
...,
[1, 0, 1, ..., 0, 0, 0],
[1, 0, 1, ..., 0, 0, 0],
[1, 0, 1, ..., 0, 0, 0]], dtype=int32)
在上面的矩陣中,每一行都是個別標題的單詞表示。每列代表一個特定的詞的例子。
vocab[:5]
Out[5]: ('church', 'pope', 'years', 'people', 'mother')
所以,X矩陣中的每一行i,col j給出了第i個標題中特定單詞的頻率。
titles[:1]
Out[11]: ('0 UK: Prince Charles spearheads British royal revolution. LONDON 1996-08-20',)
標題U:查爾斯王子......一次提到教會一詞,教皇0次,幾年一次,等等。
In [13]: type(titles)
Out[13]: tuple
In [14]: type(vocab)
Out[14]: tuple
In [15]: type(X)
Out[15]: numpy.ndarray