2

我一直在研究構建移動/網絡應用程序的可行性,該應用程序允許用戶說出一個詞組並檢測用戶的口音(波士頓,紐約,加拿大等)。用戶可以說約5到10個預定義的短語。我熟悉可用的一些Speech to Text API(Nuance,Bing,Google等),但似乎都沒有提供這種附加功能。我發現的最接近的例子是谷歌現在或微軟的說話人識別API:口音檢測API?

http://www.androidauthority.com/google-now-accents-515684/

https://www.microsoft.com/cognitive-services/en-us/speaker-recognition-api

因爲那裏將是5-10預定義的短語我想用一臺機器學習軟件如Tensorflow或Wekinator。我會將每個口音中創建的初始音頻用作初始數據。在深入探索這條道路之前,我只想獲得關於這種方法的一些反饋,或者是否有更好的方法。讓我知道是否需要澄清任何事情。

回答

3

你可以使用(這只是一個想法,你需要做很多測試),與儘可能多的產出,你有一個SOFTMAX輸出層和交叉熵成本函數

4

有可能口音神經網絡沒有公開的API用於這種罕見的任務。

強化檢測作爲語言檢測通常使用i向量來實現。教程是here。實施是available in Kaldi

即使你的句子是固定的,你也需要大量的數據來訓練系統。收集重音語音可能會更容易,而不會關注您擁有的特定句子。因爲你需要將說話者內在的東西與口音內在的東西分開(基本上執行像i-向量這樣的因式分解),所以端到端張量流的實現也是可能的,但可能需要太多的數據。您可以找到類似作品的描述,例如thisthis one