我一直在玩這個在線演示的瀏覽器內https://cs.stanford.edu/people/karpathy/convnetjs/demo/image_regression.html,我一直在努力使圖像與文字(與「狐狸說什麼...」標題)顯示更清晰(與可讀的文字)無濟於事。過度裝配神經網絡的最佳方法是什麼?
該神經網絡接收兩個輸入 - 一個像素的X和Y位置和三個輸出 - 所述像素的RGB通道。網絡由選定的圖片進行訓練,然後嘗試「繪製」它。
我想訓練這個網絡的方式,使每個像素匹配儘可能接近原始圖像,即使其過度使用。這怎麼能實現?應該使用什麼組合或參數?也許網絡的結構需要不同(更多層,更多層中的神經元,不同類型的層等)?
我試着學習速度播放,無需改變原有的結構,但即使在400K迭代大部分文字都是沒有區別:
難道僅僅是一個時間問題和也許經過幾百萬次的迭代後會達到預期的結果?它可以以某種方式加速(不增加處理能力和其他明顯的東西)?
看來,讓它每次都爲同樣的輸入返回相同的值應該是一件非常簡單的任務 - 網絡正在接受數十萬次的完全相同的數據訓練,爲什麼它仍然會返回那麼多灰色像素?
我是新來的神經網絡,所以也許這是一個愚蠢的問題,神經網絡根本無法使用。
你試過語義分割嗎? –
不能。你能告訴我怎麼用這個特定的JS庫來完成它嗎? –
我不知道這個JS庫,但我用Caffe中的圖像語義分割。 –