首先感謝提前,我真的不知道我是否應該打開一個問題,所以我想檢查是否有人遇到過這個問題。使用帶TF-IDF的管道時CalibratedClassifierCV的錯誤?
所以使用CalibratedClassifierCV文本分類時,我有以下問題。我有一個估計這是一個管道這種方式創建(簡單的例子):
# Import libraries first
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import make_pipeline
from sklearn.calibration import CalibratedClassifierCV
from sklearn.linear_model import LogisticRegression
# Now create the estimators: pipeline -> calibratedclassifier(pipeline)
pipeline = make_pipeline(TfidfVectorizer(), LogisticRegression())
calibrated_pipeline = CalibratedClassifierCV(pipeline, cv=2)
現在,我們可以創建一個簡單的列車設置檢查分類工作:
# Create text and labels arrays
text_array = np.array(['Why', 'is', 'this', 'happening'])
outputs = np.array([0,1,0,1])
當我嘗試適合calibrated_pipeline對象,我得到這個錯誤:
ValueError: Found input variables with inconsistent numbers of samples: [1, 4]
如果你想我可以警察y整個異常追蹤,但這應該很容易重現。提前感謝!
編輯:我創建數組時犯了一個錯誤。現在固定(感謝@ogrisel!)另外,美其名曰:
pipeline.fit(text_array, outputs)
工作正常,但與標定分級這樣做失敗!
在報告錯誤時,應始終報告完整的回溯。很多時候,你的問題的答案就在那裏。 – ogrisel