-3
我是一名Python和機器學習的初學者。我發現加載大型數據集(500個觀測值×300個特徵)用於訓練和分類非常困難。請爲我提供加載此類大數據的代碼。如何導入大型數據集?
我是一名Python和機器學習的初學者。我發現加載大型數據集(500個觀測值×300個特徵)用於訓練和分類非常困難。請爲我提供加載此類大數據的代碼。如何導入大型數據集?
這裏有三個選項供您:直接
將數據加載到列表的列表
>>> data = [line.strip().split(',') for line in open('arrhythmia.txt')]
,每個值將被讀取爲一個字符串,你將有什麼決定用它做,但你會有最大的靈活性。
使用numpy.genfromtext,將數據讀入一個numpy
ndarray,可以處理非數值(「?」)出現在數據中。
使用pandas.read_csv,它類似於numpy.genfromtext
,但將數據讀取到pandas.DataFrame對象中。這要求你也有pandas
模塊,但是提供了一些很好的附加功能(如命名列/屬性)。
它應該指出的是,這是更恰當的問題的回答「我如何讀取文本文件逗號分隔的數據值的二維數組」,因爲你的數據文件,它是在400KB在目前的(2016年)標準中,很難被認爲是「大數據集」。
具有300個特徵的500個實例通常不被視爲大型數據集。無論如何,如果不知道數據的類型和格式,沒有人能真正幫助你。 – bogatron
它的心律失常數據集,我想用於分類從UCI存儲庫與csv格式和實際/數字數據類型 – ash11114
嘗試使用[numpy.loadtxt](http://docs.scipy.org/doc/numpy/reference/generated /numpy.loadtxt.html)。 – bogatron