2008-08-22 62 views
19

我一直想很多不同的搜索技術如何存在,用於搜索文本,搜索圖片,甚至視頻。如何在音頻文件/流內搜索內容?

但是,我從來沒有碰到過的是搜索音頻文件中的內容的解決方案。

例如:讓我們假設我有大約200個播客以mp3,wav和ogg文件的形式下載到我的電腦。它們都被命名爲podcast1.mp3,podcast2.mp3等。因此,不可能知道內容是什麼,而不會實際聽到它們。可以說,我有興趣瞭解哪些播客談論「遊戲編程」。我想要的結果被示出爲:

  • Podcast1.mp3 - 在時間索引(ES)3的結果(S) - 〇時16分21秒,0點43分45秒,1點12分31秒
  • Podcast21.ogg - 1個結果在時間索引(ES) - 0時12分01秒

所以我的問題:

  • 何以解決這個問題?
  • 是否有發展到這樣做合適的算法?

一個想法在我的腦海裏冒出了是,人們可以使用「語音到文本」軟件與時間指標相處成績單每個音頻文件,然後解析成績單來獲得輸出。

我正在考慮這是我的愛好項目之一。 謝謝!

回答

8

如果您想搜索文本(即你在說什麼)的音頻流內你就必須用某種語音識別算法來處理它和存儲文本與文件相關的元數據。對於視頻,您還可以對視頻中的文本進行文本識別。 Evernote已經爲圖像文件中的文本執行此操作,但據我所知,不支持音頻。使用音頻搜索音頻時

類似的事情是可能的。我不知道這些算法的細節,但我猜他們涉及某種頻率分析。 Shazam正在使用這種技術來識別基於音頻剪輯的歌曲。

這裏有一些維基百科文章可能有用: