google-cloud-dataflow

0熱度

1回答

解決apache波束管道導入錯誤[BoundedSource對象大於允許的限制]

我有一堆存儲在谷歌雲存儲上的文本文件（〜1M）。當我讀到這些文件到谷歌雲數據流的管道的處理，我總是得到以下錯誤： Total size of the BoundedSource objects returned by BoundedSource.split() operation is larger than the allowable limit 的故障排除頁說： You might enc

0熱度

1回答

通過Apache Beam寫入XML時生成多個文件

我正在嘗試編寫源文件存儲在GCS中的文本文件。代碼運行良好，但不是一個XML文件，而是生成多個XML文件。（XML文件的數量似乎遵循源文本文件中存在的記錄總數）。我在使用'DataflowRunner'時觀察了這種情況。當我在本地運行相同的代碼，然後生成兩個文件。第一個包含所有具有適當元素的記錄，第二個僅包含打開和關閉根元素。有關這種意外行爲發生的任何想法？請在下面找到我使用的代碼片段： P

0熱度

1回答

processElement（）中的拾取元素 - Apache Beam

我知道當我們實現一個ParDo變換時，我們從數據中獲取單個元素（基本上由「\ n」分隔）。但是如果我有一個在我的文件中佔據兩行的元素呢？我可以運用自己的條件來挑選元素嗎？或者是否總是需要在一行中包含元素？

0熱度

1回答

阿帕奇梁Dataflow工作開始與失敗：工作流程失敗

我一直在運行批處理作業了一個多星期，現在有DataflowRunner沒有問題，但都從今天突然啓動的工作開始與以下錯誤消息失敗。工人似乎沒有開始，也沒有登錄堆棧驅動程序。任何事情，我在這裏失蹤？ Dataflow SDK version: 2.0.0 Submitted job: 2017-08-29_09_43_20-9537473353894635176 2017-08-29 16:44

0熱度

1回答

無法使用XmlSource讀取存儲在GCS Bucket中的XML文件

有沒有人嘗試過這段代碼？ XmlSource<String> source = XmlSource.<String>from("gs://balajee_test/sample_3.xml") .withRootElement("book") .withRecordElement("author") .withRecordElement("title

0熱度

1回答

Google Dataflow將不足的數據寫入數據存儲區

今晚我的一個批處理作業失敗，出現運行時異常。它將數據寫入數據存儲區，就像今天晚上運行的其他200個作業一樣。這一次失敗的原因很長，其根源應該是這樣的： Caused by: com.google.datastore.v1.client.DatastoreException: I/O error, code=UNAVAILABLE at com.google.datastore.v1.cl

0熱度

1回答

Google dataflow 2.0 pubsub處理程序後期數據

我有一個關於goolge數據流的問題。我正在寫一個數據流管道，它從PubSub讀取數據，並寫入BigQuery，它的工作。現在，我必須處理晚期數據，我是繼優價一些例子，但它不能正常工作，這裏是我的代碼： pipeline.apply(PubsubIO.readStrings() .withTimestampAttribute("timestamp").fromSubscripti

1熱度

2回答

自動調節：無法達到區域中工作區域的調整大小目標us-central1 -f

我正在谷歌雲數據流中使用Apache Beam模型運行管道，但我無法從8名工作人員擴展它，即使工人的最大數量爲32 當我嘗試運行相同的流水線工人數量設置爲32，它給了我以下警告： Autoscaling: Startup of the worker pool in zone us-central1-f reached 30 workers, but the goal was 32 workers.

0熱度

1回答

如何使用Dataflow在GCS上自動編輯超過100k個文件？

我在Google雲端存儲上有超過10萬個包含JSON對象的文件和我想創建一個鏡像來維護filesytem結構，但是從文件內容中刪除了一些字段。我試圖在Google Cloud Dataflow上使用Apache Beam，但它拆分了所有文件，我無法再維護該結構。我正在使用TextIO。我有的結構是類似reports/YYYY/MM/DD/<filename> 但數據流輸出到output_dir

2熱度

1回答

緩存數據流中的數據集

我想知道我是否可以直接在Google Dataflow平臺中緩存數據集（例如在Spark中緩存RDD）。如果沒有這樣的功能，Dataflow如何在應用程序中挑選熱門數據集，特別是如果您有多個熱門數據集，並且您想根據數據集的重要性優先緩存？