2014-12-28 32 views
1

我在學習Scikit-Learn對推文進行一些分類。我有一列csv,在一列上有推文,而他們的下一列是0-11。我經歷了this tutorial from Scikit-Learn site我想我理解實際的分類是如何完成的,但我不認爲我真的理解數據格式。在教程中,材料位於文件夾名稱充當分類標記的文件夾中。將分類數據從CSV加載到Scikit-Learn進行機器學習

在我的情況下,我應該從csv文件加載數據,顯然我需要構建數據結構,它是手動向矢量化器和分類器提供的。我應該如何處理這個問題?我認爲這個教程在這方面有些模棱兩可,因爲數據加載是自動完成的,並且讓我對自定義數據的結構和加載情況一無所知。

+1

你可能想看看'pandas'文檔。特別是'pandas.read_table'和'pandas.read_csv'可能會讓你感興趣。 – cel

回答

9

通常情況下,你會使用pandas.read_csv或者如果你不想熊貓依賴numpy.load甚至使用標準庫加載CVS到列表。它應該是這樣的:

import pandas as pd 
from sklearn.feature_extraction.text import TfidfVectorizer 

df = pd.read_csv('example.csv', header=None, sep=',', 
       names=['tweets', 'class']) # columns names if no header 
vect = TfidfVectorizer() 
X = vect.fit_transform(df['tweets']) 
y = df['class'] 

一旦你有你Xy你可以將它們提供給分類。

+1

謝謝!很高興看到它畢竟是那麼簡單。我有時間時應該對熊貓進行適當的觀察。 – Tumetsu