在csv數據集上使用Scikit-learn

-1

如何將scikit-learn應用於numpy數組，每列代表不同的屬性？基本上，我想教它如何從這4個特徵中識別一個健康的患者，然後看它是否能識別出一個不正常的特徵。在csv數據集上使用Scikit-learn

在此先感謝！

2017-07-21 G.Bruce

的管線通常具有以下步驟：

from sklearn import svm clf = svm.SVC(gamma=0.001, C=100.)

clf.fit(X_train,y_train)

這裏X_train會將您的四列功能和y_train作爲患者是否健康的標籤。

預測新的數據

y_pred = clf.prdict(X_test)

This tutorial是偉大的起點，您可以獲取有關管道的一些基本概念。

2017-07-21 14:25:50 meelo

謝謝！所以你會定義y_train作爲1和0的列，這取決於不是相應的X_train行是正常的還是異常的？ –

是的，你可以二進制化y，例如1表示健康，0表示患者。 – sera

@ G.Bruce您還可以在訓練時將原始標籤放入y中。無需轉換爲0或1.他們將在scikit-learn中得到支持。 –

查看pandas包，該包允許您將CSV文件導入數據框。 pandas由scikit-learn支持。

2017-07-21 13:22:07 zfisher

對不起，我不覺得我足夠清晰我有一個Numpy格式的數組中的CSV文件（我認爲這也支持scikit學習），但我不明白你是如何實際處理這個？ –

對不起，我的意思不是迂腐或無益，但你看過sklearn教程了嗎？它涵蓋了很多。 http://scikit-learn.org/stable/tutorial/basic/tutorial.html – zfisher

我有，而且我似乎無法開始就是我想要做什麼.. 我很新的編碼，非常抱歉，如果我特別慢。 –

回答