我是一個機器學習的初學者和wan't使用ML蟒蛇,它是大熊貓模塊,以瞭解將非數字到數字的值。所以我有這樣的數據框:使用熊貓庫
COL1 COL2 COL3
a 9/8/2016 2
b 12/4/2016 23
...
n 1/1/2015 21
COL1是一個字符串,Col2是一個時間戳,Col3是一個數字。現在我需要對這個Dataframe做一些分析,並且我想將所有的非數字數據轉換爲數字。我嘗試使用DictVectorizer()將COL1和2轉換爲數字,但首先我不確定這是做這種事情的最佳方式,其次我不知道如何處理時間戳。 當我使用DictVectorizer輸出會是這樣:
{u'COL3: {0:2, 1:23 , ...,n:21}, 'COL1': {0: u'a', 1:'b', ... , n:'n'}, 'COL2': {0: u'9/8/2016' , 1: u'12/4/2016' , ... , n:u'1/1/2016'}}
但是從我所學到的,應該是這樣的,或者至少我知道我需要的東西是這樣的:
{COL1:'a', COL2: '9/8/2016' , COL3: 2 and so on}
所以,問題: 1 - 什麼是將非數字(包括日期),以數值在sklearn圖書館使用的最佳途徑 2 - 什麼是使用DictVectorize正道()
任何幫助將是更加感激ated。
謝謝你,它的工作原理爲COL1而不是COL2 – faranak777
@Faranak對於'COL2'可以使用熊貓[pd.to_datetime](http://pandas.pydata.org/pandas- docs/stable/generated/pandas.to_datetime.html)函數: 'df ['COL2'] = pd。to_datetime(df ['COL2'])' – Tiphaine