如何導入大型數據集？

-3

我是一名Python和機器學習的初學者。我發現加載大型數據集（500個觀測值×300個特徵）用於訓練和分類非常困難。請爲我提供加載此類大數據的代碼。如何導入大型數據集？

2016-04-29 ash11114

具有300個特徵的500個實例通常不被視爲大型數據集。無論如何，如果不知道數據的類型和格式，沒有人能真正幫助你。 – bogatron

它的心律失常數據集，我想用於分類從UCI存儲庫與csv格式和實際/數字數據類型 – ash11114

嘗試使用[numpy.loadtxt]（http://docs.scipy.org/doc/numpy/reference/generated /numpy.loadtxt.html）。 – bogatron

這裏有三個選項供您：直接

將數據加載到列表的列表
```
>>> data = [line.strip().split(',') for line in open('arrhythmia.txt')] 
```
，每個值將被讀取爲一個字符串，你將有什麼決定用它做，但你會有最大的靈活性。
使用numpy.genfromtext，將數據讀入一個numpyndarray，可以處理非數值（「？」）出現在數據中。
使用pandas.read_csv，它類似於numpy.genfromtext，但將數據讀取到pandas.DataFrame對象中。這要求你也有pandas模塊，但是提供了一些很好的附加功能（如命名列/屬性）。

它應該指出的是，這是更恰當的問題的回答「我如何讀取文本文件逗號分隔的數據值的二維數組」，因爲你的數據文件，它是在400KB在目前的（2016年）標準中，很難被認爲是「大數據集」。

2016-04-29 17:15:41 bogatron

回答