2012-10-12 27 views
0

我在使用Google Goggle和Google的「按圖搜索」時提出這個問題是因爲好奇。創建可以識別圖像上下文的軟件的可能性?

如果您嘗試向Google提供圖片進行搜索,它會顯示一些結果。相同的圖像效果最好(當然),但拍攝各種物體的照片可能會很困難。

我猜Google Goggle通過使用文本識別和圖像匹配識別有點解決方法。如果文本識別發現了文本,例如「SONY」,那麼事情可能會變得更簡單。如果檢測到品牌形象,那麼事情也應該更簡單。其他着名品牌和着名地標也是如此,如艾菲爾鐵塔。擁有文字和品牌形象可以幫助輕鬆識別事物。

但是,如果我們要搜索更晦澀的東西(這裏需要更好的措辭),例如,拿這張拉麪圖片。

ramen

如果你把這個圖像到谷歌,你會得到具有相似的顏色,有時類似形狀的各種其他圖像的圖像。哎呀,結果中還有其他的拉麪圖像,但我認爲如果這些拉麪圖像位於最上面,那麼會更好,因爲我們輸入了拉麪圖像,我們的上下文是拉麪。

所以這裏是我的問題,是否有可能創建這樣一個軟件,可以理解圖像的上下文?我們如何在軟件中表達上下文?

+0

-1關閉粘糊糊的可以食用的東西。 –

+0

+1對於粘糊糊的可以食用的東西。 :) –

回答

1

男人,你只是想出了很多人從事計算機視覺工作的原因。

是很容易在數學上描述對象。顏色,形狀,密度,。 。 。 所有這些都可以輕鬆計算。

但是在談論「真實生活的對象」時,計算機視覺變得非常複雜。

角度,光度和簡單的不一致使得準確檢測物體幾乎是不可能的。

在處理計算機視覺時,你應該總是問自己:是什麼讓我想要識別的對象獨特?

我可以使用什麼描述符,沒有其他對象擁有?

問問自己這個拉麪的問題。假設我只是想檢測ramens。 如果湯的顏色變化怎麼辦?如果肉較大怎麼辦?

如果你想知道更多,你應該閱讀模式識別和模式匹配。

如果你能找到一個通用的方法解決這類問題,你可以爲諾貝爾獎註冊我認爲:)

有些東西是相當不錯現今已知的,如面部識別或OCR;但它們通常很專業,只適用於一個領域。 想一想,即使谷歌的圖片搜索算法吸食時,你拉麪。 雖然數獨是非常有效的,因爲他確切知道他在尋找什麼。 所有的差異都是在訓練中進行的,在這裏你給出了一系列假設來幫助算法。

所以基本上你明白了。要麼你創建了一個非常好的計算機視覺系統,很好地根據大量的假設檢測一件事情,或者一個「好的」但很通用的:)。 這個選擇主要取決於你的應用程序

+0

如果要求計算機識別襪子的圖像,給出其他「訓練」數據,即同一襪子的圖像,並從同一角度,照明等受控條件下拍攝,它會變得更簡單嗎? –

相關問題