2016-04-29 68 views
-3

我是一名Python和機器學習的初學者。我發現加載大型數據集(500個觀測值×300個特徵)用於訓練和分類非常困難。請爲我提供加載此類大數據的代碼。如何導入大型數據集?

+1

具有300個特徵的500個實例通常不被視爲大型數據集。無論如何,如果不知道數據的類型和格式,沒有人能真正幫助你。 – bogatron

+0

它的心律失常數據集,我想用於分類從UCI存儲庫與csv格式和實際/數字數據類型 – ash11114

+0

嘗試使用[numpy.loadtxt](http://docs.scipy.org/doc/numpy/reference/generated /numpy.loadtxt.html)。 – bogatron

回答

1

這裏有三個選項供您:直接

  1. 將數據加載到列表的列表

    >>> data = [line.strip().split(',') for line in open('arrhythmia.txt')] 
    

    ,每個值將被讀取爲一個字符串,你將有什麼決定用它做,但你會有最大的靈活性。

  2. 使用numpy.genfromtext,將數據讀入一個numpyndarray,可以處理非數值(「?」)出現在數據中。

  3. 使用pandas.read_csv,它類似於numpy.genfromtext,但將數據讀取到pandas.DataFrame對象中。這要求你也有pandas模塊,但是提供了一些很好的附加功能(如命名列/屬性)。

它應該指出的是,這是更恰當的問題的回答「我如何讀取文本文件逗號分隔的數據值的二維數組」,因爲你的數據文件,它是在400KB在目前的(2016年)標準中,很難被認爲是「大數據集」。