創建可以識別圖像上下文的軟件的可能性？

我在使用Google Goggle和Google的「按圖搜索」時提出這個問題是因爲好奇。創建可以識別圖像上下文的軟件的可能性？

如果您嘗試向Google提供圖片進行搜索，它會顯示一些結果。相同的圖像效果最好（當然），但拍攝各種物體的照片可能會很困難。

我猜Google Goggle通過使用文本識別和圖像匹配識別有點解決方法。如果文本識別發現了文本，例如「SONY」，那麼事情可能會變得更簡單。如果檢測到品牌形象，那麼事情也應該更簡單。其他着名品牌和着名地標也是如此，如艾菲爾鐵塔。擁有文字和品牌形象可以幫助輕鬆識別事物。

但是，如果我們要搜索更晦澀的東西（這裏需要更好的措辭），例如，拿這張拉麪圖片。

ramen

如果你把這個圖像到谷歌，你會得到具有相似的顏色，有時類似形狀的各種其他圖像的圖像。哎呀，結果中還有其他的拉麪圖像，但我認爲如果這些拉麪圖像位於最上面，那麼會更好，因爲我們輸入了拉麪圖像，我們的上下文是拉麪。

所以這裏是我的問題，是否有可能創建這樣一個軟件，可以理解圖像的上下文？我們如何在軟件中表達上下文？

2012-10-12 Karl

-1關閉粘糊糊的可以食用的東西。 –

+1對於粘糊糊的可以食用的東西。 :) –

男人，你只是想出了很多人從事計算機視覺工作的原因。

是很容易在數學上描述對象。顏色，形狀，密度，。。。所有這些都可以輕鬆計算。

但是在談論「真實生活的對象」時，計算機視覺變得非常複雜。

角度，光度和簡單的不一致使得準確檢測物體幾乎是不可能的。

在處理計算機視覺時，你應該總是問自己：是什麼讓我想要識別的對象獨特？

我可以使用什麼描述符，沒有其他對象擁有？

問問自己這個拉麪的問題。假設我只是想檢測ramens。如果湯的顏色變化怎麼辦？如果肉較大怎麼辦？

如果你想知道更多，你應該閱讀模式識別和模式匹配。

如果你能找到一個通用的方法解決這類問題，你可以爲諾貝爾獎註冊我認爲:)

有些東西是相當不錯現今已知的，如面部識別或OCR;但它們通常很專業，只適用於一個領域。想一想，即使谷歌的圖片搜索算法吸食時，你拉麪。雖然數獨是非常有效的，因爲他確切知道他在尋找什麼。所有的差異都是在訓練中進行的，在這裏你給出了一系列假設來幫助算法。

所以基本上你明白了。要麼你創建了一個非常好的計算機視覺系統，很好地根據大量的假設檢測一件事情，或者一個「好的」但很通用的:)。這個選擇主要取決於你的應用程序

2012-10-12 20:35:53 jlengrand

如果要求計算機識別襪子的圖像，給出其他「訓練」數據，即同一襪子的圖像，並從同一角度，照明等受控條件下拍攝，它會變得更簡單嗎？ –

回答