2

我一直在探索的神經網絡,並已能夠成功地培養出網絡甚至對我自己的形象在某種程度上標示個別的圖片作爲某些事情,但不知道如何使用的培訓網絡,以確定和可能的回報來自一個圖像的多個對象。例如,如果你受過訓練的貓,狗,和一個圖像有多個貓,狗,你會如何運用訓練的網絡,並返回自己的位置(圖中)?如何使用訓練的神經網絡來識別圖像中的多個對象?

這裏是主要的教程中我也跟着在Python實現:http://machinelearningmastery.com/object-recognition-convolutional-neural-networks-keras-deep-learning-library/

一般的答案就足夠了,如,是在圖片上滑動窗口爲這個最好的解決方案或者是有什麼更容易嗎?

一個具體的例子(尤其是在python),將不勝感激。 我已經使用了大部分的圖像工作的matplotlib,所以我更願意呆在從PIL切片了。

謝謝!

回答

2

當你想使用你現有的培訓N/W:

  1. 蠻力推拉窗:你將不得不處理許多窗口(基於圖像尺寸象素幻燈片),如果你不知道大小和對象在圖像中的位置,每個窗口可能會產生不同的結果,並且可能是其中的一個或幾個是最終所需的結果,您是否看到複雜性如何增加。許多人將難以確定實際需要的結果。
  2. 預處理:圖像可以將其供給到網絡之前進行預處理。例如,用猴子和蛇拍攝圖像,計算圖像的能量(Sobel et.al)。圖像中的猴子足跡更像是圓形的氣球(更多區域),蛇會像線程一樣(面積更小),基於此,有一個python腳本將圖像裁剪到特定部分,然後將其饋送到n/w 。您可以考慮其他預處理技術。

如果你對其他n/w的開放,檢查CRF作爲迴歸神經網絡。例如:https://github.com/torrvision/crfasrnn

希望這有助於。

+0

Thanks NKU - 我之前讀過滑動規則,是的複雜性和處理要求似乎不現實。我會看看其他預處理技術來限制計算時間。 – Beutler