blaze

0熱度

1回答

使用pandas - read_csv或read_sql或blaze將數據從postgres複製到ZODB？

我正在創建一個使用ZODB的新應用程序，我需要主要從postgres數據庫導入遺留數據，但也需要從一些csv文件導入。數據的操作有限（sql連接合並鏈接表和創建屬性，更改某些屬性的名稱，處理空列等）。有了postgres數據的一個子集，我做了一個轉儲到所有相關表的csv文件，將它們讀入熊貓數據框並做了處理。這可行，但有部分原因是由於首先將數據傳輸到csv。我現在想要加載所有的數據（並擺脫錯誤）

0熱度

2回答

如何在使用odo函數時解決utf-8錯誤？ OperationalError：（sqlite3.OperationalError）無法解碼爲UTF-8列

我是odo的新手。我有一個簡單的功能來遷移數據庫： from blaze import Data, odo, like def migrate(source, target, table_names=None): src_db = Data(source) tbl_names = (src_db.fields, table_names)[table_names is not

2熱度

1回答

使用Blaze Data不支持的字符串編碼（引擎）

有沒有解決方法？我有一個使用SQL_Latin1_General_CP1_CI_AS排序規則設置的MSSQL表。 engine = create_engine('mssql+pyodbc://'+ServerName+'/'+Database+'?driver='+ServerDriver+'?charset=cp2150') 我能夠把它與 prov_chunk = pd.read_sql(

4熱度

2回答

指數萬用行快速訪問矩陣矩陣

我有一些非常大的矩陣（比方說百萬行的順序），我不能保留在內存中，我需要訪問此矩陣的子採樣在下降時間（不到一分鐘...）。我開始尋找HDF5並結合numpy的和熊貓走出一條： http://web.datapark.io/yves/blaze.html http://blaze.pydata.org 但我發現它有點複雜，我不知道這是否是最好的解。還有其他解決方案嗎？感謝編輯這裏的那種我處理

1熱度

1回答

當存儲在bcolz中時數據大小被吹掉

我有一個包含〜7M行和3列，2個數字和1〜20M不同字符串uuids的數據集。這些數據以3G作爲csv文件，Castra可以將其存儲在2G左右。我想用這些數據測試bcolz。我試圖 odo(dask.dataframe.from_castra('data.castra'), 'data.bcolz') 其中產生的數據的〜70G的磁盤上排出的inode和崩潰之前。將這樣的數據集合到bco

17熱度

2回答

如何將Parquet文件讀入Pandas DataFrame？

如何在不設置Hadoop或Spark等集羣計算基礎架構的情況下將適中大小的Parquet數據集讀入內存中的Pandas DataFrame？這只是我想在筆記本電腦上用簡單的Python腳本在內存中讀取的適量數據。數據不駐留在HDFS上。它在本地文件系統上或可能在S3中。我不想啓動和配置Hadoop，Hive或Spark等其他服務。我認爲Blaze/Odo會做到這一點：Odo文檔提到了Parque

0熱度

1回答

什麼是表示分層對象向量的好方法？

我有一個對象表示爲嵌套字典\數組該集合中的所有對象都具有相同的架構，儘管數組中的條目數量可能因對象而異有所不同我正在尋找一種存儲此數據的好方法，這將允許簡單的批量操作。特別是，快速訪問列\列作爲numpy數組很重要（這是不使用一個簡單的對象列表的主要原因）熊貓與MultiIndex是我的第一個想法，但我不相信它可以支持可變長度陣列

0熱度

1回答

如何在blaze中過濾id等於指定id的記錄？

我使用blaze查詢csv和json的數據。我只需要查詢id等於指定的id的記錄？可能嗎。 city = city[city.ID = 1] 雖然試圖執行上面的代碼顯示語法錯誤：無效的語法

0熱度

1回答

走走整數超出範圍「的錯誤SQLAlchemy的

所以，我使用odo進行數據遷移，但是碰到這個錯誤傳來： sqlalchemy.exc.DataError: (psycopg2.DataError) integer out of range 源和目標表都具有相同的架構，但在SQL語句在後端執行時，整數值與它們有0。就像在源表中的整數34如圖34.0： [SQL: INSERT INTO table2 (col1, col2,col3) VAL

1熱度

3回答

如何將blaze數據對象轉換爲json？

雖然試圖在使用json.dumps中發生火焰錯誤時發生TypeError：對象不是JSON可序列化的。 data = Data("employee.json") json.dumps(data)