2017-09-07 69 views
0

SideInput有點像Spark中的廣播,這意味着您正在將數據緩存到本地工作機器以進行快速查找以減少網絡/隨機播放開銷。想想限制你可以擁有多少內存應該適合在堆中是合乎邏輯的。在數據流documentation中,它表示限制爲20K分片。這是什麼意思?碎片有多大?Cloud Dataflow/Beam:側面輸入限制

回答

1

要回答您的原始問題,您可以通過命令行上的--workerCacheSizeMb選項配置由Dataflow工作人員完成的內存緩存量,如果您以編程方式調用管道,則該值爲setWorkerCacheSizeMb。默認值是100Mb。

+0

是否有可能使用Dataflow在計算中使用實例模板分配外部磁盤?你提到的一個選項似乎沒有記錄在任何地方。 – Mayumi