blaze

    0熱度

    1回答

    我正在創建一個使用ZODB的新應用程序,我需要主要從postgres數據庫導入遺留數據,但也需要從一些csv文件導入。數據的操作有限(sql連接合並鏈接表和創建屬性,更改某些屬性的名稱,處理空列等)。 有了postgres數據的一個子集,我做了一個轉儲到所有相關表的csv文件,將它們讀入熊貓數據框並做了處理。這可行,但有部分原因是由於首先將數據傳輸到csv。 我現在想要加載所有的數據(並擺脫錯誤)

    0熱度

    2回答

    我是odo的新手。我有一個簡單的功能來遷移數據庫: from blaze import Data, odo, like def migrate(source, target, table_names=None): src_db = Data(source) tbl_names = (src_db.fields, table_names)[table_names is not

    2熱度

    1回答

    有沒有解決方法? 我有一個使用SQL_Latin1_General_CP1_CI_AS排序規則設置的MSSQL表。 engine = create_engine('mssql+pyodbc://'+ServerName+'/'+Database+'?driver='+ServerDriver+'?charset=cp2150') 我能夠把它與 prov_chunk = pd.read_sql(

    4熱度

    2回答

    我有一些非常大的矩陣(比方說百萬行的順序),我不能保留在內存中,我需要訪問此矩陣的子採樣在下降時間(不到一分鐘...)。 我開始尋找HDF5並結合numpy的和熊貓走出一條: http://web.datapark.io/yves/blaze.html http://blaze.pydata.org 但我發現它有點複雜,我不知道這是否是最好的解。 還有其他解決方案嗎? 感謝 編輯 這裏的那種我處理

    1熱度

    1回答

    我有一個包含〜7M行和3列,2個數字和1〜20M不同字符串uuids的數據集。這些數據以3G作爲csv文件,Castra可以將其存儲在2G左右。 我想用這些數據測試bcolz。 我試圖 odo(dask.dataframe.from_castra('data.castra'), 'data.bcolz') 其中產生的數據的〜70G的磁盤 上排出的inode和崩潰之前。 將這樣的數據集合到bco

    17熱度

    2回答

    如何在不設置Hadoop或Spark等集羣計算基礎架構的情況下將適中大小的Parquet數據集讀入內存中的Pandas DataFrame?這只是我想在筆記本電腦上用簡單的Python腳本在內存中讀取的適量數據。數據不駐留在HDFS上。它在本地文件系統上或可能在S3中。我不想啓動和配置Hadoop,Hive或Spark等其他服務。 我認爲Blaze/Odo會做到這一點:Odo文檔提到了Parque

    0熱度

    1回答

    我有一個對象表示爲嵌套字典\數組 該集合中的所有對象都具有相同的架構,儘管數組中的條目數量可能因對象而異有所不同 我正在尋找一種存儲此數據的好方法,這將允許簡單的批量操作。 特別是,快速訪問列\列作爲numpy數組很重要(這是不使用一個簡單的對象列表的主要原因) 熊貓與MultiIndex是我的第一個想法,但我不相信它可以支持可變長度陣列

    0熱度

    1回答

    我使用blaze查詢csv和json的數據。我只需要查詢id等於指定的id的記錄?可能嗎。 city = city[city.ID = 1] 雖然試圖執行上面的代碼顯示 語法錯誤:無效的語法

    0熱度

    1回答

    所以,我使用odo進行數據遷移,但是碰到這個錯誤傳來: sqlalchemy.exc.DataError: (psycopg2.DataError) integer out of range 源和目標表都具有相同的架構,但在SQL語句在後端執行時,整數值與它們有0。就像在源表中的整數34如圖34.0: [SQL: INSERT INTO table2 (col1, col2,col3) VAL

    1熱度

    3回答

    雖然試圖在使用json.dumps中發生火焰錯誤時發生TypeError:對象不是JSON可序列化的。 data = Data("employee.json") json.dumps(data)