0
我有一個CSV一些數據被格式化爲如(I刪除爲簡單起見一些列):Numpy無法正確接受字符串?
Year,Region,Round,Diff
2014,South,Second Round,-24
2015,West,First Round,48
# ...lots of rows of this
我希望同時使用在Region
和Round
列中的字符串數據,並在整數數據Diff
欄。
這裏是我的相關代碼:
import sklearn
import numpy as np
from numpy import genfromtxt
from StringIO import StringIO
# Some other code...
my_dtype=[('Year', int), ('Region', str),('Round', str),('Diff', int)]
data = np.genfromtxt(my_file, delimiter=',',names=True,dtype=my_dtype)
print data
當我打印我的數據,我得到以下。 NumPy使每個字符串都是一個空字符串。
[ (2014, '', '', -24)
(2010, '', '', 48)
...]
有誰知道我該如何解決這個問題?我使用dtype屬性是否錯誤?或者是其他東西?提前致謝。