當我嘗試使用此示例代碼訓練在谷歌雲ML我的模型:谷歌雲ML退出與245非零狀態訓練
import keras
from keras import optimizers
from keras import losses
from keras import metrics
from keras.models import Model, Sequential
from keras.layers import Dense, Lambda, RepeatVector, TimeDistributed
import numpy as np
def test():
model = Sequential()
model.add(Dense(2, input_shape=(3,)))
model.add(RepeatVector(3))
model.add(TimeDistributed(Dense(3)))
model.compile(loss=losses.MSE,
optimizer=optimizers.RMSprop(lr=0.0001),
metrics=[metrics.categorical_accuracy],
sample_weight_mode='temporal')
x = np.random.random((1, 3))
y = np.random.random((1, 3, 3))
model.train_on_batch(x, y)
if __name__ == '__main__':
test()
,我得到這個錯誤:
The replica master 0 exited with a non-zero status of 245. Termination reason: Error.
詳細的錯誤產量大,所以我把它粘貼here in pastebin
在console.google.com中,轉到漢堡包菜單,選擇「ML Engine> Jobs」,然後單擊您的工作。滾動到底部。你的內存使用情況如何?你可以有OOMed嗎? – rhaertel80
這個特殊的工作'這個圖表沒有數據'。但對於我的其他工作來說,這更復雜,並且具有相同的錯誤,內存使用量爲0.0359 – Alex
日誌輸出表明您正在遇到分段錯誤。通過您的Cloud ML作業,您可以指定要使用哪個版本的TensorFlow? –