google-cloud-dataflow

0熱度

1回答

我正在嘗試使用GCP Dataflow Python使用其第一個字符來處理輸入文本文件。如果條目的第一個字符是'A'，我想要將文件存儲在A.txt中等等。同樣，我有一個數字與每個字符相關聯。我爲此儲存了兩個hashmaps。下面是我的代碼： splitHashMap={'A':1,'F':4, 'J':4, 'Z':4, 'G':10, 'I':11}; fileHashMap= {'A':'A

0熱度

1回答

使用Apache Beam執行shell腳本

假設我有一個存儲在GCS桶中的shell腳本。是否可以使用Apache Beam執行它？如果是，那麼如何？我目前還沒有嘗試過任何東西，因爲我在Apache Beam或Dataflow的文檔中找不到任何此類內容。所以只想知道我必須採取什麼方法。謝謝。

1熱度

1回答

從雲數據流代碼調用存儲過程

是否可以直接從雲數據流代碼調用「存儲過程」。我已經將一些數據轉儲到BigQuery表中，並將這些數據應用於存儲過程（在SQL系統中使用這些數據時使用）。我是否也可以在Dataflow代碼中使用相同的存儲過程或任何解決方法？

0熱度

1回答

如何使用Apache Beam Python SDK在兩個給定密鑰的源上執行「差異」？

我一般提出這個問題，因爲它可能是一個通用的答案。但是一個具體的例子是將2個BigQuery表與相同的模式進行比較，但可能會有不同的數據。我想要一個差異，即相對於一個組合鍵，例如，添加，刪除，修改的內容。前2列。 Table A C1 C2 C3 ----------- a a 1 a b 1 a c 1 Table B C1 C2 C3 # Notes if comparing

2熱度

1回答

谷歌數據流「工作流失敗」沒有理由

我正在谷歌雲平臺上運行Dataflow-Jobs，而我得到的一個新錯誤是「工作流失敗」，沒有任何解釋。我得到的是日誌如下： 2017-08-25 (00:06:01) Executing operation ReadNewXXXFromStorage/Read+JsonStringsToXXX+RemoveLanguagesFromXXX... 2017-08-25 (00:06:01) Ex

0熱度

1回答

使用Apache梁

問題背景我試圖生成每個從實時視頻流密鑰事件項目的總體（線性）訂單，其中的順序是事件時間（源自活動按關鍵字進行的處理全排序事件有效載荷）。方法我曾試圖實現此使用流如下： 1）設置的非重疊序列的窗戶，例如持續時間5分鐘 2）建立一個允許遲到 - 這是很好丟棄晚期事件 3）設置的累加模式保留全部解僱窗格 4）使用「AfterwaterMark」觸發 5）當處理觸發窗格時，只考慮窗格是否是最後一個窗

2熱度

1回答

爲什麼Apache Beam中的GroupByKey之後的FlatMap如此之慢？

給定一個相對較小的數據源（3,000-10,000）的鍵/值對，我試圖只處理符合組閾值（50-100）的記錄。所以最簡單的方法是將它們按鍵，過濾和展開進行分組 - 無論是使用FlatMap還是ParDo。迄今爲止，最大的團體只有1,500條記錄。但這似乎是Google Cloud Dataflow生產中的一個嚴重瓶頸。隨着給定的列表（1，1）（1，2）（1，3） ... （2，1）（2,

1熱度

1回答

爲什麼從Dataflow/Beam管道寫入BigQuery很慢？

我們有一個非常簡單的管道，它正在讀取GCS，執行一個簡單的ParDo，然後將結果寫入BigQuery。它可以自動擴展到50臺虛擬機，運行在GCP上，並且不會做任何事情。從GCS（〜10B記錄&〜700 + GB）讀取所有數據並進行轉換，所有數據都發生得相對較快（前7-10分鐘）。但是，當它到達BigQuery寫入（使用BigQueryIO）時，它會放慢速度 - 即使它只需要寫入大約1M個記錄（

0熱度

1回答

確定pcollection是否爲空

如何在寫入apache beam（2.1.0）中的文本文件之前檢查pcollection是否爲空？我在這裏要做的是將一個文件分解成指定數字的集合，這個集合通過ValueProvider作爲參數傳遞給管道。由於此ValueProvider在管道施工時間不可用，因此我聲明一個不錯的26號（總字母數，這是用戶可以輸入的最大數量），使其可用於.withOuputTags()。所以我得到26個元組標籤，在

2熱度

1回答

閱讀從GCS文件在Apache的梁

我需要閱讀從GCS桶的文件。我知道我將不得不使用GCS API /客戶端庫，但我無法找到與此相關的任何實例。我一直在參考GCS文檔中的鏈接： GCS Client Libraries。但無法真正發揮作用。如果有人能提供一個真正有用的例子。謝謝。