2016-07-28 86 views
1

我想知道爲什麼dd.from_bcolz()在調用時立即開始做一些處理(當N列上升並且存在字符串類型列時,它會很快增長)。dask.dataframe.from_bcolz()開始立即處理

而且dd.read_hdf()調用時沒有做太多的處理,但只有當dask.dataframe使用 - 那麼read_hdf()讀取和處理HDF5由大塊大塊......

我怎麼樣read_hdf現在工作,唯一的問題是hdf5表不能有多於1200列,而dataframe不支持列數組。並且hdf5格式畢竟不是列的...

In [1]: import dask.dataframe as dd 

In [2]: import pandas as pd 

In [3]: import bcolz, random 

In [4]: import numpy as np 

In [5]: N = int(1e7) 

In [6]: int_col = np.linspace(0, 1, N) 

In [7]: ct_disk = bcolz.fromiter(((i,i) for i in range(N)), dtype="i8,i8",\ 
    ...:       count=N, rootdir=r'/mnt/nfs/ct_.bcolz') 

In [8]: for i in range(10): ct_disk.addcol(int_col) 

In [9]: import dask.dataframe as dd 

In [10]: %time dd.from_bcolz(r'/mnt/nfs/ct_.bcolz', chunksize=1000000, lock=False) 
CPU times: user 8 ms, sys: 16 ms, total: 24 ms 
Wall time: 32.6 ms 
Out[10]: dd.DataFrame<from_bc..., npartitions=10, divisions=(0, 1000000, 2000000, ..., 9000000, 9999999)> 

In [11]: str_col= [''.join(random.choice('ABCD1234') for _ in range(5)) for i in range(int(N/10))]*10 

In [12]: ct_disk.addcol(str_col, dtype='S5') 

In [13]: %time dd.from_bcolz(r'/mnt/nfs/ct_.bcolz', chunksize=1000000, lock=False) 
CPU times: user 2.36 s, sys: 56 ms, total: 2.42 s 
Wall time: 2.44 s 
Out[13]: dd.DataFrame<from_bc..., npartitions=10, divisions=(0, 1000000, 2000000, ..., 9000000, 9999999)> 

In [14]: for i in range(10): ct_disk.addcol(str_col, dtype='S5') 

In [15]: %time dd.from_bcolz(r'/mnt/nfs/ct_.bcolz', chunksize=1000000, lock=False) 
CPU times: user 25.3 s, sys: 511 ms, total: 25.8 s 
Wall time: 25.9 s 
Out[15]: dd.DataFrame<from_bc..., npartitions=10, divisions=(0, 1000000, 2000000, ..., 9000000, 9999999)> 

而且,當N(nrows)長大時它會變得更糟。

回答

0

看起來像今天寫的from_bcolz自動分類對象dtype列。因此,它正在對所有對象dtype列進行完整讀取,並在其上調用unique。您可以通過設置categorize=False來關閉此功能。

如果您認爲應該更改此行爲,請提出github問題。