1
我試圖重現Netflix最近在關於產品Vectorflow的article中提到的設置。如何將scipy稀疏矩陣保存到實木複合地板文件中
他們使用Hive中的parquet文件作爲數據源。我想用scipy的稀疏矩陣生成一些假數據。如何將這樣的矩陣保存到鑲木地板文件中?
我試圖重現Netflix最近在關於產品Vectorflow的article中提到的設置。如何將scipy稀疏矩陣保存到實木複合地板文件中
他們使用Hive中的parquet文件作爲數據源。我想用scipy的稀疏矩陣生成一些假數據。如何將這樣的矩陣保存到鑲木地板文件中?
您可以使用Apache箭頭(Python包的名字是pyarrow
)用於寫入平面文件:https://arrow.apache.org/docs/python/parquet.html
有一些方便的功能來存儲pandas.DataFrames
,爲SciPy的稀疏矩陣,可以使用其中的一些,但需要調整它有點。
使用Apache Parquet的重要一點是它是一個列式表格式的格式,即它需要一個數組字典。你將不得不以這種形式呈現你的矩陣。這將取決於Vectorflow如何預期數據。