2013-03-06 67 views
5

我開始使用scikit-learn,我試圖將一組文檔轉換爲可應用聚類和分類的格式。我已經看到了有關矢量化方法的詳細信息,以及tfidf轉換來加載文件併爲其詞彙表編制索引。scikit-learn,向矢量化文檔集添加特徵

不過,我會爲每個文件額外的元數據,如作者,這是負責任的,主題列表劃分等

我怎麼能功能添加到由矢量化功能生成的每個文檔向量?

回答

8

您可以使用DictVectorizer作爲額外的分類數據,然後使用scipy.sparse.hstack來合併它們。

+0

優秀的,我會嘗試,但堆棧似乎是我所需要的。謝謝! – Mortimer 2013-03-06 23:36:02