2009-09-30 75 views
2

我有很多WMA格式的語音音頻,我想要機器轉錄它 - 即使轉錄不是100%準確,我認爲它可以幫助很多作爲一些「索引」音頻。我願意編寫一些代碼來實現這一點,但微軟的Speech API可以幫助我嗎?有沒有可以爲我做這個的應用程序?以自動方式錄製WMA/MP3音頻?

回答

0

SAPI當然可以做你想做的。從一個進程內識別器開始,將音頻作爲文件流連接起來(您可能需要將您的WMA文件轉碼爲WAV流,因爲SAPI只需要WAV輸入,但您可以即時進行轉碼),設置聽寫模式,然後離開你。

現在令人失望的一點。你可能不會得到非常好的結果;事實上,我懷疑,除非你很幸運,否則你可能會得到全部垃圾。

有幾個問題:

  1. 聽寫真的只有行之有效一旦SR引擎已經被訓練。如果你幸運(像我一樣),你可以得到好的結果,但如果說話者有口音,訓練是必須的。
  2. 培訓只適用於單一語音。如果你在一個音頻文件中有多個揚聲器,它將無法正常工作。
  3. 聽寫(以及一般語音識別)的音頻模型假定您正在使用近距離通話麥克風(即靠近臉部的麥克風,以儘量減少噪音拾取)。如果你的WMA文件有額外的噪音,準確性會大幅下降。

我其實會建議使用Dragon Naturally Speaking Professional;他們花了時間和金錢來完成轉錄工作。我自己並沒有使用它,所以我不知道你的情況會有多好。

+0

我對Dragon Naturally Speaking做了一些研究,轉錄工具假設它是從錄音機或類似的工具中接收它的輸入,所以它有一組類似的問題(它需要訓練,假設一個聲音,並假設麥克風靠近揚聲器)。 – 2009-11-10 23:16:17

+0

的確如此,但Dragon引擎之前已成功用於「音頻挖掘」。如果您需要準確的成績單,您會感到失望。如果你想找到關鍵字或短語,在合理的質量音頻源(如電視,而不是電話會議記錄),它的工作原理。這是幾年前,但我相信它沒有變得更糟。 – 2009-11-19 16:55:50

-1

你需要一個相關的程序來實現這一點,就像一個口述軟件。 Speech API是相反的方式。我不相信這是開源的,因爲這是一個非常非常複雜的軟件。

+0

SAPI涵蓋了識別和綜合,所以它可以被使用。但我並不熟悉它,所以我不能說Windows是否實際上提供了訪問英語的內置識別功能,即使在非英語操作系統上也是如此。儘管如此,它仍然可以提供足夠的開始。 – 2009-09-30 18:42:14

+0

哦,不知道。只記得在XP中的東西,現在你說它,Vista有這個識別功能。 – Femaref 2009-09-30 21:43:03