google-cloud-dataflow

    0熱度

    1回答

    我有一堆存儲在谷歌雲存儲上的文本文件(〜1M)。當我讀到這些文件到谷歌雲數據流的管道的處理,我總是得到以下錯誤: Total size of the BoundedSource objects returned by BoundedSource.split() operation is larger than the allowable limit 的故障排除頁說: You might enc

    0熱度

    1回答

    我正在嘗試編寫源文件存儲在GCS中的文本文件。代碼運行良好,但不是一個XML文件,而是生成多個XML文件。 (XML文件的數量似乎遵循源文本文件中存在的記錄總數)。我在使用'DataflowRunner'時觀察了這種情況。 當我在本地運行相同的代碼,然後生成兩個文件。第一個包含所有具有適當元素的記錄,第二個僅包含打開和關閉根元素。 有關這種意外行爲發生的任何想法?請在下面找到我使用的代碼片段: P

    0熱度

    1回答

    我知道當我們實現一個ParDo變換時,我們從數據中獲取單個元素(基本上由「\ n」分隔)。但是如果我有一個在我的文件中佔據兩行的元素呢?我可以運用自己的條件來挑選元素嗎?或者是否總是需要在一行中包含元素?

    0熱度

    1回答

    我一直在運行批處理作業了一個多星期,現在有DataflowRunner沒有問題,但都從今天突然啓動的工作開始與以下錯誤消息失敗。工人似乎沒有開始,也沒有登錄堆棧驅動程序。 任何事情,我在這裏失蹤? Dataflow SDK version: 2.0.0 Submitted job: 2017-08-29_09_43_20-9537473353894635176 2017-08-29 16:44

    0熱度

    1回答

    有沒有人嘗試過這段代碼? XmlSource<String> source = XmlSource.<String>from("gs://balajee_test/sample_3.xml") .withRootElement("book") .withRecordElement("author") .withRecordElement("title

    0熱度

    1回答

    今晚我的一個批處理作業失敗,出現運行時異常。它將數據寫入數據存儲區,就像今天晚上運行的其他200個作業一樣。這一次失敗的原因很長,其根源應該是這樣的: Caused by: com.google.datastore.v1.client.DatastoreException: I/O error, code=UNAVAILABLE at com.google.datastore.v1.cl

    0熱度

    1回答

    我有一個關於goolge數據流的問題。 我正在寫一個數據流管道,它從PubSub讀取數據,並寫入BigQuery,它的工作。 現在,我必須處理晚期數據,我是繼優價一些例子,但它不能正常工作,這裏是我的代碼: pipeline.apply(PubsubIO.readStrings() .withTimestampAttribute("timestamp").fromSubscripti

    1熱度

    2回答

    我正在谷歌雲數據流中使用Apache Beam模型運行管道,但我無法從8名工作人員擴展它,即使工人的最大數量爲32 當我嘗試運行相同的流水線工人數量設置爲32,它給了我以下警告: Autoscaling: Startup of the worker pool in zone us-central1-f reached 30 workers, but the goal was 32 workers.

    0熱度

    1回答

    我在Google雲端存儲上有超過10萬個包含JSON對象的文件和我想創建一個鏡像來維護filesytem結構,但是從文件內容中刪除了一些字段。 我試圖在Google Cloud Dataflow上使用Apache Beam,但它拆分了所有文件,我無法再維護該結構。我正在使用TextIO。 我有的結構是類似reports/YYYY/MM/DD/<filename> 但數據流輸出到output_dir

    2熱度

    1回答

    我想知道我是否可以直接在Google Dataflow平臺中緩存數據集(例如在Spark中緩存RDD)。 如果沒有這樣的功能,Dataflow如何在應用程序中挑選熱門數據集,特別是如果您有多個熱門數據集,並且您想根據數據集的重要性優先緩存?