2013-10-16 164 views
2

我有一個谷歌應用程序引擎應用程序必須處理大量的數據收集。我收集的數據每天大約有數百萬條記錄。正如我所看到的,有兩種簡單的方法來處理這個問題,以便能夠分析數據:在GAE上保存數據:日誌與數據存儲

    1.使用記錄器API生成應用程序引擎日誌,然後嘗試將它們加載到一個大的查詢(或者更簡單地導出爲CSV並使用excel進行分析)。
    2.將數據保存在應用程序引擎數據存儲區(ndb)中,然後稍後下載該數據/嘗試加載到大查詢。

有沒有更好的方法來做到這一點?

謝謝!

回答

4

BigQuery有一個新的Streaming API,他們聲稱它是專爲大批量實時數據收集而設計的。

實踐建議:我們目前每天通過方法1記錄20M +多事件記錄,如上所述。它工作得很好,除非沒有調用批量上傳器(通常每5分鐘),那麼我們需要檢測這個並重新運行導入器。 此外,我們目前正在遷移到新的Streaming API,但尚未投入生產,所以我不能說它有多可靠。

+0

我想我會給蒸汽API一個鏡頭。感謝您從個人經歷中分享,幫助很大。 – orcaman