從音頻剪輯中提取單詞

我想創建一個應用程序，記錄您對麥克風說的內容並提取所有單詞。從音頻剪輯中提取單詞

我知道這是許多公司和個人正在研究的問題，但我不太確定我們從開發擅長此工具的工具到底有多遠。

此外，有沒有公開的工具來實現這一目標？我希望有一個由Google Assistant，Apple Siri提供的API，或者我可以通過上傳音頻片段然後獲取所說的內容來使用的API。

2017-05-31 Jamgreen

你有沒有偶然發現[** pocketsphinx.js **]（https://github.com/syl22-00/pocketsphinx.js）？也許值得嘗試一下。 – Tholle

不知道這對你有多大用處，但是我已經用Amazon Echo及其開發者工具獲得了相當不錯的結果。不幸的是，你需要一個實際的設備來自己嘗試語音識別;開發工具包只允許你輸入能夠傳遞給你的'技能'的東西。 –

雖然Google確實有Google Assistant SDK，但它主要目的是從您的軟件或設備發送音頻並從助理接收音頻響應 - 就像您在Google Home中獲得的響應一樣。同樣，Actions on Google是爲了處理所有的自然語言處理（NLP），並給你一個迴應 - 並不是完全給你所說的話（儘管這是一種副作用）。

聽起來更像是你想要的文字（STT）系統的Cloud Speech API。您可能希望將其與諸如Cloud Natural Language API之類的東西結合起來，然後可以從生成的文本中解析出意義。

來源

2017-05-31 10:52:22 Prisoner

微軟有Bing Speech API這是用來處理音頻和提取口語。

他們也有Custom Speech Service和Speaker Recognition API

自定義語音服務是用來克服語音識別障礙，如說話方式，詞彙和背景噪音。

可用的help docs and samples是一個很好的開始。

來源

2017-05-31 09:26:15

從音頻剪輯中提取單詞

回答

相關問題