我正在考慮將BigQuery作爲我的數據倉庫要求。現在,我在谷歌雲(雲SQL和BigTable)中獲得了我的數據。我公開了我的REST API以從兩者中檢索數據。現在,我想從這些API中檢索數據,執行ETL並將數據加載到BigQuery中。我正在評估ETL(每小時數據的每日工作頻率)的2個選項: -Google Cloud上的ETL - (數據流與Spring批處理) - > BigQuery
- 使用JAVA Spring Batch並創建微服務並使用Kubernetes作爲部署環境。它會縮放嗎?
- 使用雲數據流的ETL
然後使用BigQuery的批量插入API(初始負載)和流插入API(增量負載時,在源提供的新數據)來加載BigQuery的非規範化架構。
請讓我知道您的意見。
@Eric ...感謝您的回答...從這個API中,我可以獲得第二基礎的數據數據(我將每天彙總到此數據庫中)。此API可以在每次調用時給出最多10000個數據點...還有分頁支持。讓我們舉個例子 - 實體總數 - 10,000,與每個實體相關的度量類型 - 1000.因此,每年(每次每次測量的單次輸入) - 365(不是天)* 10,000(總實體)* 1000(總測量) = 3650000000(約40億) – Abhay
@abhay - 我支持我的答案,然後,我會用數據流。您的工作流程的每日節奏將與模板很好地協同工作,您可以在一天之內進行分區,以使您的查詢具有成本效益。 –
@埃裏克斯..感謝您的回答 – Abhay