2014-10-08 25 views
0

我想使用亞馬遜EC2中R.存儲數據集和中間文件在Amazon EC2上

與大型數據集工作,我都推出一個實例,安裝R,並創建了卷的EBS像「根「在300 Go的驅動器中,取消選中」刪除終止「。

然後我在新實例中啓動了這個AMI,上傳了一些數據集並終止了實例。

當我稍後在新實例上啓動AMI時,硬盤驅動器的狀態與首次創建AMI時的狀態相同 - 但我希望上傳的數據集可用。它預期的行爲?如果是,在Amazon EC2的兩個連接之間存儲數據集和中間文件的最佳方法是什麼?

+4

這個問題似乎是題外話題,因爲它是關於如何配置一個EC2 AMI來存儲一些數據集,而不是一個特定的編程問題。 – josliber 2014-10-08 02:49:44

回答

1

也許你可以使用S3作爲文件系統。

在AWS上創建S3存儲桶。在本例中,我們使用本地運行的AWS命令行實用程序:

aws s3 mb s3://bucketxyz 

然後啓動一個EC2實例。這個例子適用於Amazon Linux。 ssh入禁區,設置s3fs:

sudo yum install git gcc libstdc++-devel gcc-c++ fuse fuse-devel curl-devel libxml2-devel openssl-devel mailcap automake 

git clone git://github.com/s3fs-fuse/s3fs-fuse.git 
cd s3fs-fuse/ 
./autogen.sh 

./configure --prefix=/usr 
make 
sudo make install 

...然後設置您的AWS憑據:

echo '[AWS Access Key ID]:[AWS Secret Access Key]' | sudo tee /etc/passwd-s3fs 
sudo chmod 400 /etc/passwd-s3fs 

然後裝入驅動器作爲文件夾:

sudo mkdir /bucketxyz 
sudo s3fs bucketxyz /bucketxyz 

此文件夾現在可以像任何其他文件夾一樣訪問,但駐留在S3中,因此是持久的,並且可以根據需要從其他實例訪問。

相關問題