2013-03-23 64 views
7

有沒有免費的服務/程序將音頻轉錄爲文字 並保留時間戳?免費時間戳音頻轉錄(語音到文本)?

我要抄寫:

This is the demo link of VoiceBase

(419個詐騙者之間向16m談話;騙子用 重的口音說話,所以我不抱怨 轉錄的質量)。

聲明庫將其轉錄,但轉錄是測試的單個塊 ,並且未加時間戳。

我也嘗試了谷歌語音「絕招」(記錄文件轉換成語音郵件 和谷歌有它抄寫在時間3分鐘),但同樣,在 轉錄是一個單獨的文字塊,不timestampped。

我知道獅身人面像,但不能得到它的工作。

我意識到我可以使用subtitleeditor創建一個手動轉換, 但我正在尋找一個自動化的解決方案。

理想情況下,我想採取時間戳機器轉錄和手工編輯它。

+0

CMUSphinx可以以比Voicebase更高的準確度轉錄此文件。歡迎您提供文件本身的鏈接,我會爲您提供示例時間戳和轉錄。 – 2013-03-23 18:38:26

+0

謝謝!如果帖子中的網址不起作用,請嘗試http://s3.amazonaws.com/plivocloud/4c743546-7e1b-11e2-9060-002590662312.mp3(如果它有效,我會做更多的努力來獲得獅身人面像在我自己​​的機器上工作和/或與你交朋友) – barrycarter 2013-03-23 22:01:18

+0

對不起,我已經給你添加了下面的例子。 – 2013-04-01 13:37:19

回答

5

CMUSphinx可以做到這一點,只需從源代碼運行Aligner演示。最新的sphinx4教程可用in sphinx4 tutorial。在2014年夏天,CMUSphinx在sphinx4主幹中集成了long audio alignment功能。

這是完全錯誤的,但與語音庫不同,它至少捕獲了一些單詞。可能更容易手動轉錄它並稍後分配時間。 CMUSphinx也可以通過音頻到文本對齊來實現。

由於重音和短音引起的解碼精度有很多問題,但也有一些東西你也要負責。例如,你不應該把8khz bandwith的電話音頻轉換成mp3。這種轉換極大地降低了自動語音識別的準確性和整體記錄質量。您可以使用其他面向語音的無損編解碼器進行壓縮。

其他question討論這個問題,列出一些建議。

+0

謝謝,尼古拉!該文件直接來自plivo.com,所以我不認爲我有 格式的選擇。我繼續前進,手動創建了一個 .srt文件,用於此錄音的前3分鐘,並且還在這3分鐘內上傳 Google語音副本 (https://github.com/barrycarter/bcapps/tree/master/SOUND )。我將使用您的數據 創建一個SRT文件以與我的數據進行比較。 – barrycarter 2013-04-01 15:24:24

+0

好的,太好了。詢問你是否需要更多幫助。 – 2013-04-01 15:41:26

+0

如果您可以通過電子郵件/ Google Talk聊天,我是[email protected] - 我可以咀嚼您的(虛擬)耳朵幾天;) – barrycarter 2013-04-01 15:42:43

0

如果在谷歌搜索,你會得到由實例市場professionals.Some供電轉錄軟件的一個長長的清單是:

  1. 快遞抄寫
  2. EureScribe
  3. InqScribe

但使用自動化軟件時發生的問題是,它不提供我們需要的確切結果。所以,如果您仍然在使用這些軟件時遇到任何問題,那麼您可以聘請一名抄寫員來緩解您的工作。

0

名爲Speechlogger的新軟件(chrome web-app)(https://speechlogger.appspot.com)正是爲此目的而製作的。它會保留時間戳,並讓您輸出到srt (captions) format

它應該是最好的技術,因爲它利用了Google的語音識別引擎。它也自動標點(基於簡單的單詞內容和結構)。