我目前在BigQuery中有一個大小爲100 + GB的表,我想檢索到R.我在bigrquery
包中使用list_tabledata()
函數R ,但需要大量的時間。如何檢索一個100 + GB大小的BigQuery表到R
任何人都有建議處理R中的大量數據,以及如何提高性能?像任何軟件包,工具?
我目前在BigQuery中有一個大小爲100 + GB的表,我想檢索到R.我在bigrquery
包中使用list_tabledata()
函數R ,但需要大量的時間。如何檢索一個100 + GB大小的BigQuery表到R
任何人都有建議處理R中的大量數據,以及如何提高性能?像任何軟件包,工具?
tabledata.list
不是從BigQuery中消耗大量表格數據的好方法 - 正如您所看到的那樣,它並不是非常高效。我不確定bigrquery是否支持表導出,但從大型BigQuery表中檢索數據的最佳方式是使用導出作業。這會將數據轉儲到Google雲端存儲上的文件,然後您可以將其下載到桌面。你可以在our documentation找到更多關於出口表的信息。
另一種選擇是:不要將大量數據帶入代碼 - 嘗試將代碼帶入數據。在BQL中實現邏輯方面這可能是一個挑戰。 JS UDF可能會有所幫助。這取決於。
如果這是不可行的 - 我會建議使用採樣數據或重新訪問您的模型
您是否有內存支持數據?如果不是,我會建議閱讀它並做所需的工作。無論如何,你想用信息做什麼?這可能會幫助其他人幫助你更多。 – Badger
我需要在R中對數據進行一些建模,其中包含具有4000個特徵(列)的500,000個觀察值(行)。這些數據位於Google BigQuery中,現在無法將數據加載到R.有什麼想法? – Jade
是的,我收集了很多,你是一次使用所有4000個功能建模嗎?如果是這樣,我認爲你可能需要很多變量,並且可以通過使用最重要的變量來加強你的模型。也許在變量中分批定義最佳模型會有所幫助,500,000行對R來說不是問題,但500,000 x 4000可能是一個挑戰(很大程度上取決於RAM)。 – Badger