1
我正在訓練一個深度網絡,有兩個數據輸入管道,一個用於培訓,一個用於驗證。它們分別使用shuffle_batch_join
和batch_join
進行並行數據讀取。在網絡中使用的數據流是通過在這兩個管道之上使用tf.cond
操作來決定的,該操作由is_training
佔位符控制,該佔位符在訓練迭代中設置爲true,在進行驗證時設置爲false。我有4個線程用於讀取訓練數據和1個線程進行驗證。tf.train.batch_join隊列泄漏?
但是,我只是將隊列摘要添加到tensorboard中,並且觀察到訓練期間驗證隊列的摘要(顯示已滿的隊列的一小部分)在一個點處變得非零,然後回落到0。看起來很奇怪,因爲驗證只在1K迭代後運行,並且這些數據點應該只在該點被刪除。有沒有人有類似的經歷,或者可以發現可能發生的事情?