2015-11-05 94 views
4

我有一個大型數據集(185GB),我打算在其上執行一些機器學習算法。數據在計算能力有限的本地計算機上。我可以訪問遠程集羣,在那裏我可以執行我的計算昂貴的算法。它有1TB的內存,速度非常快。但由於某些原因,我在遠程服務器上只有2GB(!)磁盤存儲空間。Python上的遠程數據庫訪問

我可以通過SSH連接到集羣,有什麼辦法可以在python上,我可以通過SSH加載數據庫到RAM?

任何有關如何解決這個問題的一般技巧是非常感謝。

+1

也許[這](http://stackoverflow.com/questions/1596963/read-a-file-from-server-with-ssh-using-python)是你在找什麼? – Ali

回答

1

您可能想要使用paramiko,以便您可以在Python中使用SSH進行連接。然後,您可以運行輸出數據並從流中讀取數據的命令。這會比複製文件更好,因爲它不會涉及將數據複製到磁盤。如果數據在文件中,那麼您可以使用paramiko來讀取文件並從流中讀取數據。