2017-02-21 53 views
1

我和我的團隊開始使用Google Cloud Dataflow遠程運行我們的作業,而不是在我們的計算機上本地運行作業。我們從Python中設置的朱利安示例開始,以確保部署工作成功。Google Cloud Dataflow修復了基於零的索引和一個基於索引

即使它比我的本地計算機花費的時間更長,它在Google Cloud Dataflow上也完成了。

我們遇到的問題是他們使用零基索引和一個基於索引的相同文件名,這對我們來說沒有任何意義。

enter image description here

我們認爲在00008-的-00008或00009-的-00009結束做出比在00008-的-00009結局更有意義。無論如何,我們可以解決這個問題,讓左側和右側的數字可以匹配?

+0

作爲您評論的註釋,小型作業可能需要更長的時間才能在本地運行,因爲虛擬機需要保留並啓動。 – Pablo

+1

@Pablo謝謝!我們很高興聽到這個消息,並希望小型工作沒有利用並行化等優勢。 –

回答

0

通過使用0000X-of-0000Y格式,Beam嘗試執行index-of-count。右邊的數字是碎片的總數,而左邊的數字是從零開始的索引。

Apache Beam中的接收器當前不支持更改此行爲(很容易)。要自己添加它,您必須修改Apache Beam中的代碼(特別是,around here)。

希望這會有所幫助。

+0

感謝您爲我們找到Pablo!我們希望有一個簡單的解決方案,它不涉及編輯Apache Beam代碼,所以我們也可以輕鬆地保持最新的更新。 –