我想創建一個應用程序,記錄您對麥克風說的內容並提取所有單詞。從音頻剪輯中提取單詞
我知道這是許多公司和個人正在研究的問題,但我不太確定我們從開發擅長此工具的工具到底有多遠。
此外,有沒有公開的工具來實現這一目標?我希望有一個由Google Assistant,Apple Siri提供的API,或者我可以通過上傳音頻片段然後獲取所說的內容來使用的API。
我想創建一個應用程序,記錄您對麥克風說的內容並提取所有單詞。從音頻剪輯中提取單詞
我知道這是許多公司和個人正在研究的問題,但我不太確定我們從開發擅長此工具的工具到底有多遠。
此外,有沒有公開的工具來實現這一目標?我希望有一個由Google Assistant,Apple Siri提供的API,或者我可以通過上傳音頻片段然後獲取所說的內容來使用的API。
雖然Google確實有Google Assistant SDK,但它主要目的是從您的軟件或設備發送音頻並從助理接收音頻響應 - 就像您在Google Home中獲得的響應一樣。同樣,Actions on Google是爲了處理所有的自然語言處理(NLP),並給你一個迴應 - 並不是完全給你所說的話(儘管這是一種副作用)。
聽起來更像是你想要的文字(STT)系統的Cloud Speech API。您可能希望將其與諸如Cloud Natural Language API之類的東西結合起來,然後可以從生成的文本中解析出意義。
微軟有Bing Speech API這是用來處理音頻和提取口語。
他們也有Custom Speech Service和Speaker Recognition API
自定義語音服務是用來克服語音識別障礙,如說話方式,詞彙和背景噪音。
可用的help docs and samples是一個很好的開始。
你有沒有偶然發現[** pocketsphinx.js **](https://github.com/syl22-00/pocketsphinx.js)?也許值得嘗試一下。 – Tholle
不知道這對你有多大用處,但是我已經用Amazon Echo及其開發者工具獲得了相當不錯的結果。不幸的是,你需要一個實際的設備來自己嘗試語音識別;開發工具包只允許你輸入能夠傳遞給你的'技能'的東西。 –