我知道術語文檔矩陣是一個數學矩陣,它描述文檔集合中出現的術語的頻率。在文檔術語矩陣中,行對應於集合中的文檔,列對應於術語。如何計算術語文檔矩陣?
我正在使用sklearn的CountVectorizer從字符串(文本文件)中提取功能以簡化我的任務。下面的代碼根據sklearn_documentation
from sklearn.feature_extraction.text import CountVectorizer
import numpy as np
vectorizer = CountVectorizer(min_df=1)
print(vectorizer)
content = ["how to format my hard disk", "hard disk format problems"]
X = vectorizer.fit_transform(content) #X is Term-document matrix
print(X)
輸出如下:
我沒有得到如何矩陣已經calculated.please討論的代碼所示的例子返回一個術語文檔矩陣。我已經閱讀了Wikipedia的一個例子,但無法理解。
ThankYouSoMuch:D – zerobyzero
你會告訴我這段代碼是如何工作的:'sp.linalg.norm(X_train.getrow(0).toarray())'其中sp是'導入scipy as sp',結果norm()的參數爲[[1 1 1 0 1 0 0 0 0 1 1 1 1 1 0 1 0 0 1 1 1]]。 – zerobyzero