0
CountVectorizer/TfidfVectorizer變爲(40,845 X 218,904)(unigram)後,我只有2個類和我的訓練數據集矩陣大小的文檔分類問題。我想使用TruncatedSVD;然而,CountVectorizer/TfidfVectorizer似乎產生負值。我想知道爲什麼以及如何避免消極的價值。如何在使用TruncatedSVD時避免負值錯誤?
tsvd = TruncatedSVD(10000, algorithm="randomized")
features = [
dict(name="count_ng1",
feat=CountVectorizer(tokenizer=tokenizer, ngram_range=(1,1))),
dict(name="tfidf_ng1",
feat=TfidfVectorizer(tokenizer=tokenizer, ngram_range=(1,1))),
]
for data in datas:
(D_train, y_train, d_test, y_test) = g.get_train_test(**data['params'])
for feat in features:
x_train = feat['feat'].fit_transform(d_train)
x_test = feat['feat'].transform(d_test)
X_trainSVD = tsvd.fit_transform(x_train)
X_testSVD = tsvd.transform(x_test)
你應該包括一些代碼 – lejlot
我已經添加了一些代碼。它只是使用sklearn軟件包 – user2179347
的必要功能,它看起來並不像一個有效的python縮進,爲了提出一個好問題(以及 - 獲得有價值的答案),您必須準備一個簡短的可重現示例。 – lejlot