將分類數據從CSV加載到Scikit-Learn進行機器學習

我在學習Scikit-Learn對推文進行一些分類。我有一列csv，在一列上有推文，而他們的下一列是0-11。我經歷了this tutorial from Scikit-Learn site我想我理解實際的分類是如何完成的，但我不認爲我真的理解數據格式。在教程中，材料位於文件夾名稱充當分類標記的文件夾中。將分類數據從CSV加載到Scikit-Learn進行機器學習

在我的情況下，我應該從csv文件加載數據，顯然我需要構建數據結構，它是手動向矢量化器和分類器提供的。我應該如何處理這個問題？我認爲這個教程在這方面有些模棱兩可，因爲數據加載是自動完成的，並且讓我對自定義數據的結構和加載情況一無所知。

來源

2014-12-28 Tumetsu

你可能想看看'pandas'文檔。特別是'pandas.read_table'和'pandas.read_csv'可能會讓你感興趣。 – cel

通常情況下，你會使用pandas.read_csv或者如果你不想熊貓依賴numpy.load甚至使用標準庫加載CVS到列表。它應該是這樣的：

import pandas as pd 
from sklearn.feature_extraction.text import TfidfVectorizer 

df = pd.read_csv('example.csv', header=None, sep=',', 
       names=['tweets', 'class']) # columns names if no header 
vect = TfidfVectorizer() 
X = vect.fit_transform(df['tweets']) 
y = df['class']

一旦你有你X和y你可以將它們提供給分類。

來源

2014-12-28 11:36:29 elyase

謝謝！很高興看到它畢竟是那麼簡單。我有時間時應該對熊貓進行適當的觀察。 – Tumetsu

將分類數據從CSV加載到Scikit-Learn進行機器學習

回答

相關問題