我正在嘗試使用「Sci kit」來學習文本分類包。向量化成分類器。然而,我想知道如何將另一個變量添加到輸入除了文本本身。假設我想在文本中添加文本中的一些單詞(因爲我認爲它可能會影響結果)。我應該怎麼做呢?
我必須在其上添加另一個分類器嗎?或者有沒有辦法將該輸入添加到矢量化文本?
謝謝。Sklearn除了用於文本分類的文本以外的其他輸入
2
A
回答
1
Scikit學習分類器適用於numpy數組。 這意味着,在文本向量化之後,您可以輕鬆地將新功能添加到該數組(我正在將這個句子帶回去,不是很容易但可行)。 問題出現在文本分類中,您的功能將會很少,因此正常的numpy列添加不起作用。
修改自text mining example from scikit learn scipy 2013 tutorial的代碼。
from sklearn.datasets import load_files
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
import numpy as np
import scipy
# Load the text data
twenty_train_subset = load_files('datasets/20news-bydate-train/',
categories=categories, encoding='latin-1')
# Turn the text documents into vectors of word frequencies
vectorizer = TfidfVectorizer(min_df=2)
X_train_only_text_features = vectorizer.fit_transform(twenty_train_subset.data)
print type(X_train_only_text_features)
print "X_train_only_text_features",X_train_only_text_features.shape
size = X_train_only_text_features.shape[0]
print "size",size
ones_column = np.ones(size).reshape(size,1)
print "ones_column",ones_column.shape
new_column = scipy.sparse.csr.csr_matrix(ones_column)
print type(new_column)
print "new_column",new_column.shape
X_train= scipy.sparse.hstack([new_column,X_train_only_text_features])
print "X_train",X_train.shape
輸出如下:
<class 'scipy.sparse.csr.csr_matrix'>
X_train_only_text_features (2034, 17566)
size 2034
ones_column (2034L, 1L)
<class 'scipy.sparse.csr.csr_matrix'>
new_column (2034, 1)
X_train (2034, 17567)
+0
哦,我明白了。先生非常感謝您。 –
相關問題
- 1. 如何在HTML文本的其他部分輸入文本?
- 2. 如何輸入除英文以外的文本並處理輸入的文本
- 3. 除了JTextField以外的文本
- 4. 選擇用於分類用戶文本數據的sklearn管道
- 5. 將文本輸入值到其他空文本字段 - jQuery的
- 6. 禁用除輸入以外的文本選擇
- 7. 使用Python的文本文件數據,分類和使其他文本文件
- 8. 在其他文本輸入字段中輸入文本時啓用複選框
- 9. 在其他程序文本框中輸入文本框中的文本
- 10. 在使用c的其他應用程序的文本框中輸入文本#
- 11. 插入文本基於其他細胞
- 12. 除了css以外的其他html類的使用
- 13. 從富文本框中的文本分割到其他文本框取決於在c分類#
- 14. Jquery SHOW輸入文本框時的其他輸入
- 15. 用英文以外的其他語言輸入
- 16. Django的:用戶用其文本輸入
- 17. unix腳本 - 分隔輸出,但除\ n以外的其他字符\ n
- 18. 構建sklearn文本分類器並將其轉換爲coremltools
- 19. 使用Python中sklearn的文本分類我的管道配置
- 20. 如何防止用戶在文本框中輸入除正數以外的任何其他內容
- 21. 插入文本刪除了
- 22. 獲取用戶在其他課程中輸入的文本
- 23. 保存從文本框中輸入的文本以便在其他文件中使用[Swift]
- 24. 在GTK +的文本輸入嵌入其他部件
- 25. mahout分類文本輸入矢量化
- 26. 用純文本輸入的純文本輸入的簡單部分標記
- 27. DataInputStream用於輸入文本文件?
- 28. 用於文本輸入的Qualtrics代碼
- 29. Android更改其他類的TextView文本
- 30. 查找用於分類文本文檔的神經網絡輸入參數
我工作的一個類似的問題和尋找到使用[專題聯盟(http://scikit-learn.org/stable/modules/generated/ sklearn.pipeline.FeatureUnion.html)http://scikit-learn.org/stable/modules/pipeline.html#feature-union。 –