1

我目前正在使用MODIS數據集的機器學習項目。由於我的個人電腦不符合項目的計算要求,因此我採用了AWS服務器。現在問題在於地球引擎正在將圖像導出到Google雲端硬盤或Google雲端存儲,但我希望它們能夠導出到我的S3存儲桶。Google地球引擎:將MODIS圖像從GEE導出到AWS S3存儲桶

我遇到過答案,建議將數據下載到本地存儲,然後將它們上傳到S3存儲桶。鑑於龐大的數據集和我的數據速度很差,需要我很長時間才能完成。因此我想直接使用Earth Engine將它們導出到我的S3存儲桶。

我已經通過了出口發生的文檔(ee.batch.Export.image)。我正在考慮編寫一個將Geotiff圖像導出到AWS S3存儲桶而不是Google Drive或Cloud Storage的功能。

P.S.

  • 我已經使用亞馬遜MODIS公共數據集進行了驗證,並且我想要的數據集(MOD09A1和其他一些數據集)不是由亞馬遜提供的。
  • 我在我的電腦上安裝了Windows 10。

回答

1

MODIS影像已經在AWS S3(https://aws.amazon.com/public-datasets/modis/

然而,這是其他任何數據集和這裏有一些事情要考慮

1)對於現在的谷歌地球的一個有趣的問題引擎只能寫入免費高達5 GB的Google Cloud Storage存儲桶(GCS)或包含Gmail的15 GB限制的Google Drive。因此,爲了能夠在推送到AWS S3之前將這些圖像下載到本地驅動器,您需要確保GCS或驅動器上有足夠的可用空間。

2)Google Earth Engine不會導出元數據,並且如果它超過了某個文件大小限制(需要記住某些事項),則會拆分大的GeoTiff,因此您無法在上載之前將拆分圖像拼接成單個圖像AWS。您還可以將屬性導出爲CSV或kml文件的元數據。

3)一旦你知道你在GCS或谷歌驅動器足夠的緩衝空間的理想方法是

  • 從EE推到驅動器/ GCS
  • 從驅動器/ GCS
  • 拉動本地,然後推到AWS(如果你想做的事,而不是客戶端資源此使用谷歌的網絡速度可以旋轉了一個小微實例,它是下always free model from Google
  • 不使用你的客戶資源使用web集成 服務的另一種方式,例如,Zapier可以幫助您鏈接Dri如果有新文件進入AWS,它們將被複制到AWS,並且您可以使用新文件作爲觸發器進入)。 [我沒有嘗試過,但我知道可以使用Zapier或IFTTT來完成。

  • 定期檢查您的雲存儲並刪除,因爲文件被複制到GCS上,您基本上可以檢查文件或文件夾是否同步,然後刪除GCS/Drive上的文件以釋放空間並重復此過程。

我相信其他人可能會有其他一些偉大的建議,但這只是我的做法。希望有幫助

山姆

+0

你好@Sam謝謝你的回答。但正如我已經指出MOD09A1和其他我想要的數據集在亞馬遜AWS上不可用(只有這些數據集可用:MCD43A4.006,MOD09GA.006,MYD09GA.006,MOD09GQ.006,MYD09GQ.006)。我的意圖是想出一些方法,可以將tiff圖像上傳到Google Drive或雲存儲的GEE的export.image方法直接在平行線上上傳到S3。 – K0d1

+0

這就是我寫答案第二部分的原因。目前沒有直接寫入S3的方法 – Sam