3

我想用多個字符分隔符將數據加載到BigQuery。 BQ加載命令目前不支持多個字符分隔符。它只支持像'|','$','〜'等單個字符分隔符。我知道有一種數據流方法,它將從這些文件讀取數據並寫入BigQuery。但是我有大量小文件(每個文件爲400MB)必須寫入一個表格的獨立分區(分區編號大約爲700)。這種方法在數據流方面很慢,因爲我現在必須啓動一個不同的數據流作業,用for循環將每個文件寫入單獨的表。此方法運行時間超過24小時,但仍未完成。使用多字符分隔符將存儲在谷歌雲存儲上的數據加載到BigQuery

那麼有沒有其他方法可以將這些具有多個字符分隔符的多個文件加載到BigQuery的每個分區?

回答

1

從數據流的角度來看,您可以通過在每個管道中上載多個文件來簡化操作。在組裝管道時,您可以在主要方法中使用for循環,實質上有許多Read -> Write to BigQuery步驟。

另請參閱Strategy for loading data into BigQuery and Google cloud Storage from local disk瞭解更多信息。

+0

謝謝,您對BigQuery進行多次讀取和寫入的方法對我很有幫助。 –

0

我對這些問題的懶惰方法:不要在Dataflow中解析,只需將每行原始數據發送到BigQuery(每行一列)。

然後,您可以用JS UDF解析BigQuery內部。