這個問題已被部分詢問here和here沒有跟進,所以也許這不是問這個問題的地點,但我已經想出了更多的信息,我希望能得到這些答案的問題。Tensorflow對象檢測訓練被破壞,資源匱乏?
我一直在試圖在大約1k張照片上自己的庫上訓練object_detection。我一直在使用提供的管道配置文件「ssd_inception_v2_pets.config」。 我相信,我已經正確設置了培訓數據。該計劃似乎開始訓練很好。當它無法讀取數據時,它會以錯誤提醒,我解決了這個問題。
我的train_config設置如下,雖然我已經改變了一些數字,以試圖讓它運行資源更少。
train_config: {
batch_size: 1000 #also tried 1, 10, and 100
optimizer {
rms_prop_optimizer: {
learning_rate: {
exponential_decay_learning_rate {
initial_learning_rate: 0.04 # also tried .004
decay_steps: 800 # also tried 800720. 80072
decay_factor: 0.95
}
}
momentum_optimizer_value: 0.9
decay: 0.9
epsilon: 1.0
}
}
fine_tune_checkpoint: "~/Downloads/ssd_inception_v2_coco_11_06_2017/model.ckpt" #using inception checkpoint
from_detection_checkpoint: true
data_augmentation_options {
random_horizontal_flip {
}
}
data_augmentation_options {
ssd_random_crop {
}
}
}
基本上,我認爲正在發生的是計算機資源越來越匱乏非常快,我想知道如果任何人有需要更多的時間來建立一個優化,但使用較少的資源?
或者我錯了爲什麼進程被殺死,有沒有辦法讓我從內核獲得更多的信息呢?
這是我在處理過程中遇到的Dmesg信息。
[711708.975215] Out of memory: Kill process 22087 (python) score 517 or sacrifice child
[711708.975221] Killed process 22087 (python) total-vm:9086536kB, anon-rss:6114136kB, file-rss:24kB, shmem-rss:0kB
歡迎來到堆棧溢出!我已經對你的答案做了一些小的格式編輯 - 這在社區中是完全正常的,而不是批評。 :) – brichins