我試圖從谷歌雲存儲或谷歌BigQuery中加載數千兆字節的數據到熊貓數據框中,以便我可以嘗試運行scikit的OneClassSVM和隔離林(或任何其他一元或PU分類)。所以,我想pandas-gbq
但嘗試運行如何將Google雲端存儲中的千兆字節數據加載到熊貓數據框中?
pd.read_gbq(query, 'my-super-project', dialect='standard')
使我的機器SIGKILL這是隻有30%完成時。而且我無法在本地加載它,而且我的機器沒有足夠的空間,也沒有合理的效率。
我也曾嘗試
from google.cloud import storage
client = storage.Client()
bucket = client.get_bucket('bucket-id-here')
# Then do other things...
blob = bucket.get_blob('remote/path/to/file.txt')
print(blob.download_as_string())
在我可以加載1/10或我的可用數據的1/5,但後來我的機器終於告訴我,這耗盡了內存。
TLDR:有,我可以運行我的自定義代碼(與numpy的,熊貓,甚至TensorFlow)在雲中還是有些farway超級計算機,我可以很容易地和有效地從谷歌雲存儲服務或谷歌加載數據的方法BigQuery的?
不幸的是,我無法找到一個'read_gbq()'函數,但是如果你下載的文件在本地,你可以嘗試[dask.dataframe](http://dask.pydata.org/en/latest/dataframe .html),它在語法上與熊貓類似,但是在覈外進行操作,所以內存不應該成爲問題。 –
@DavidDuffrin我無法下載,因爲我的機器沒有足夠的硬盤空間。 – Flair
你能上傳文件(縣)[AWS的EMR(https://aws.amazon.com/emr/),並用類似[PySpark(https://spark.apache.org/docs操縱數據/0.9.0/python-programming-guide.html)?過去我使用Hadoop來處理類似的「大數據」應用程序。 –