我目前正在將一個BigQuery表提取到Google雲端存儲中的分片.csv中 - 有沒有什麼方法可以對提取行進行隨機/隨機化? GCS .csv將作爲GCMLE模型的訓練數據使用,當前導出是以非隨機順序排列的,因爲它們被類似的「標籤」拼湊在一起。可以將BigQuery表提取的行隨機化
這在培訓GCMLE模型時會引發問題,因爲您必須在每個批次中交付模型的所有標籤的隨機示例。儘管GCMLE/TF能夠隨機化單個.csv中行的順序,但是(據我所知)沒有任何方法可以隨機化多個.csv中選定的行。所以,我正在尋找一種方法來確保輸出到.csv的行確實是隨機的。
你沒有控制權如何從BigQuery中導出數據。我首先會問你爲什麼需要這樣做?你試圖解決什麼問題.. –
可能重複的[Google雲DataFlow Randomize WritetoBigQuery](https://stackoverflow.com/questions/46778848/google-cloud-dataflow-randomize-writetobigquery) –
我問了兩個這些問題,但我相信他們是不同的問題。第一個問題涉及更廣泛地涉及Dataflow流水線,而這個問題詢問BigQuery中的功能(這可能對另一個問題有用),而不是在評論中丟失問題(和答案)否則有關於BigQuery的類似問題 – reese0106