google-cloud-dataflow

    0熱度

    1回答

    我正在嘗試使用GCP Dataflow Python使用其第一個字符來處理輸入文本文件。如果條目的第一個字符是'A',我想要將文件存儲在A.txt中等等。同樣,我有一個數字與每個字符相關聯。我爲此儲存了兩個hashmaps。下面是我的代碼: splitHashMap={'A':1,'F':4, 'J':4, 'Z':4, 'G':10, 'I':11}; fileHashMap= {'A':'A

    0熱度

    1回答

    假設我有一個存儲在GCS桶中的shell腳本。是否可以使用Apache Beam執行它?如果是,那麼如何? 我目前還沒有嘗試過任何東西,因爲我在Apache Beam或Dataflow的文檔中找不到任何此類內容。所以只想知道我必須採取什麼方法。 謝謝。

    1熱度

    1回答

    是否可以直接從雲數據流代碼調用「存儲過程」。我已經將一些數據轉儲到BigQuery表中,並將這些數據應用於存儲過程(在SQL系統中使用這些數據時使用)。我是否也可以在Dataflow代碼中使用相同的存儲過程或任何解決方法?

    0熱度

    1回答

    我一般提出這個問題,因爲它可能是一個通用的答案。但是一個具體的例子是將2個BigQuery表與相同的模式進行比較,但可能會有不同的數據。我想要一個差異,即相對於一個組合鍵,例如,添加,刪除,修改的內容。前2列。 Table A C1 C2 C3 ----------- a a 1 a b 1 a c 1 Table B C1 C2 C3 # Notes if comparing

    2熱度

    1回答

    我正在谷歌雲平臺上運行Dataflow-Jobs,而我得到的一個新錯誤是「工作流失敗」,沒有任何解釋。 我得到的是日誌如下: 2017-08-25 (00:06:01) Executing operation ReadNewXXXFromStorage/Read+JsonStringsToXXX+RemoveLanguagesFromXXX... 2017-08-25 (00:06:01) Ex

    0熱度

    1回答

    問題背景 我試圖生成每個從實時視頻流密鑰事件項目的總體(線性)訂單,其中的順序是事件時間(源自活動按關鍵字進行的處理全排序事件有效載荷)。 方法 我曾試圖實現此使用流如下: 1)設置的非重疊序列的窗戶,例如持續時間5分鐘 2)建立一個允許遲到 - 這是很好丟棄晚期事件 3)設置的累加模式保留全部解僱窗格 4)使用「AfterwaterMark」觸發 5)當處理觸發窗格時,只考慮窗格是否是最後一個窗

    2熱度

    1回答

    給定一個相對較小的數據源(3,000-10,000)的鍵/值對,我試圖只處理符合組閾值(50-100)的記錄。所以最簡單的方法是將它們按鍵,過濾和展開進行分組 - 無論是使用FlatMap還是ParDo。迄今爲止,最大的團體只有1,500條記錄。但這似乎是Google Cloud Dataflow生產中的一個嚴重瓶頸。 隨着給定的列表 (1,1) (1,2) (1,3) ... (2,1) (2,

    1熱度

    1回答

    我們有一個非常簡單的管道,它正在讀取GCS,執行一個簡單的ParDo,然後將結果寫入BigQuery。它可以自動擴展到50臺虛擬機,運行在GCP上,並且不會做任何事情。 從GCS(〜10B記錄&〜700 + GB)讀取所有數據並進行轉換,所有數據都發生得相對較快(前7-10分鐘)。 但是,當它到達BigQuery寫入(使用BigQueryIO)時,它會放慢速度 - 即使它只需要寫入大約1M個記錄(

    0熱度

    1回答

    如何在寫入apache beam(2.1.0)中的文本文件之前檢查pcollection是否爲空? 我在這裏要做的是將一個文件分解成指定數字的集合,這個集合通過ValueProvider作爲參數傳遞給管道。由於此ValueProvider在管道施工時間不可用,因此我聲明一個不錯的26號(總字母數,這是用戶可以輸入的最大數量),使其可用於.withOuputTags()。所以我得到26個元組標籤,在

    2熱度

    1回答

    我需要閱讀從GCS桶的文件。我知道我將不得不使用GCS API /客戶端庫,但我無法找到與此相關的任何實例。 我一直在參考GCS文檔中的鏈接: GCS Client Libraries。但無法真正發揮作用。如果有人能提供一個真正有用的例子。 謝謝。