我們有一個項目,其中2個數據集(種類)存儲在谷歌數據存儲中,共有110萬條記錄。我們還計劃增加更多的數據集。現在我們正在考慮轉向應用引擎flex,以便可以利用numpy,pandas和ML框架Scikit-learn等統計庫來構建預測模型。作爲數據轉換/計算的一部分,熊貓和numpy將用於從存儲在Google數據存儲區中的數據集中提取新功能。谷歌應用程序引擎flex中的數據計算
問題 - 什麼是在大型數據集上執行計算邏輯的有效方法,這涉及到Google應用程序引擎Flex環境中的數據聚合和轉換。最初我正在考慮使用任務隊列來執行這種重型轉換,因爲它有10分鐘的超時時間,但不確定在flex環境中這是否可行
基本上我需要讀取存儲在大查詢或數據存儲區中的數據,並使用熊貓進行轉換並將其存儲回新的實體中以用於進一步的機器學習算法。 – user845405
可能是cron工作會做我想要的嗎?似乎我們可以在應用程序引擎flex中使用它們https://cloud.google.com/appengine/docs/flexible/python/scheduling-jobs-with-cron-yaml – user845405
cron作業也可以,如果您的應用程序沒有需要事件觸發處理(即相當於創建推送隊列任務的邏輯),或者如果可以模擬,例如通過週期性/計劃輪詢。 –