我目前正在做一個能夠轉錄音頻文件的工具的研究。我首先看到的是使用Microsoft的System.Speech API的可能性。微軟SAPI System.Speech轉錄
縱觀msdn documentation,看起來,這個工具更適合於短時間的語音命令,在這裏你對發言者的期望有一定的瞭解。它需要你創造良好的語法準確性。
有經驗的人可以確認這是否正確嗎?
我目前正在做一個能夠轉錄音頻文件的工具的研究。我首先看到的是使用Microsoft的System.Speech API的可能性。微軟SAPI System.Speech轉錄
縱觀msdn documentation,看起來,這個工具更適合於短時間的語音命令,在這裏你對發言者的期望有一定的瞭解。它需要你創造良好的語法準確性。
有經驗的人可以確認這是否正確嗎?
是的,沒有。
儘管理論上任何語音識別器可以實現SAPI(,因此理論上有任何精確度的),該股窗口識別器,我發現是指揮和控制深刻不錯,但沒有這麼多的自由形式聽寫或諸如關鍵詞定位之類的事物。
這並不是說你無法識別一個強大的單詞選擇,並且它非常準確。我已經讓SAPI認出並說出了克林貢語,並且擁有龐大的語法文件。只是當您嘗試創建自己的識別器,甚至是您自己的SAPI語音時,信息絕對缺乏。通常情況下,那些可以幫助你的人不太可能精確,因爲它很難或他們擁有的信息是專有的。
如果你有一個更大的詞彙,你想以自由形式認可,你可能會更好地服務於像獅身人面像。
要擴大萊斯利的答案 -
微軟已經有3個不同的SR引擎,具有不同的權衡。
System.Speech.Recognition(或桌面SAPI) - 支持單人從一個波形文件(或其他流) 聽寫輸入,但 識別器是爲了獲得 好被訓練爲一個特定的人承認。另外,輸入源必須具有高質量(低噪聲,16位,22KHz採樣率)。
Microsoft.Speech.Recognition(或服務器SAPI) - 不支持 聽寫所有,但確實需要輸入從波形文件(或其他 流),不需要培訓,以及與低質量的輸入 工作源(更多噪聲,8位,8千赫採樣率)。
Windows.Media.Speech.Recognition - 新的Windows運行時語音識別API 。支持聽寫,不需要培訓,可以使用較低質量的輸入源工作 ,但不會從wave 文件獲取輸入,並且要求您的應用基於Windows運行時。
對於轉錄的情況下,我會調查Windows.Media.Speech.Recognition工具,並期待在像Virtual Audio Cable創建一個假的默認音頻輸入設備。
這真的是最客觀,最好的答案。 –