我的一位朋友需要讀取很多數據(大約18000個數據集),這些數據都格式化令人討厭。具體來說,數據應該是8列和8000行數據,但是相反,數據是以7列傳遞的,最後一個入口溢出到下一行的第一列。Python:如何讀取列數不均的數據文件
另外每〜30行只有4列。這是因爲一些上游程序正在將200 x 280陣列重塑爲7x8120陣列。
我的問題是:我們如何將數據讀入8x7000陣列。當列數不一致時,我通常的np.loadtxt和np.genfromtxt庫失敗。
請記住,性能是一個因素,因爲必須對〜18000個數據文件進行處理。
下面是一個典型的數據文件的鏈接: http://users-phys.au.dk/hha07/hk_L1.ref
澄清:每24行有一列4行,因爲八列繼續「溢出」到每一行中。對?每個24 * 7 + 4的塊有200個項目,可以被8整除。 – 2012-03-22 13:22:44
一個例子會非常有用。 – 2012-03-22 13:29:50
如何修復上游程序輸出漂亮的HDF5文件,或者至少比這更瘋狂? – 2012-03-22 14:24:04