口音檢測API？

我一直在研究構建移動/網絡應用程序的可行性，該應用程序允許用戶說出一個詞組並檢測用戶的口音（波士頓，紐約，加拿大等）。用戶可以說約5到10個預定義的短語。我熟悉可用的一些Speech to Text API（Nuance，Bing，Google等），但似乎都沒有提供這種附加功能。我發現的最接近的例子是谷歌現在或微軟的說話人識別API：口音檢測API？

http://www.androidauthority.com/google-now-accents-515684/

https://www.microsoft.com/cognitive-services/en-us/speaker-recognition-api

因爲那裏將是5-10預定義的短語我想用一臺機器學習軟件如Tensorflow或Wekinator。我會將每個口音中創建的初始音頻用作初始數據。在深入探索這條道路之前，我只想獲得關於這種方法的一些反饋，或者是否有更好的方法。讓我知道是否需要澄清任何事情。

來源

2016-11-26 user1034642

你可以使用（這只是一個想法，你需要做很多測試），與儘可能多的產出，你有一個SOFTMAX輸出層和交叉熵成本函數

來源

2016-11-26 20:01:40

有可能口音神經網絡沒有公開的API用於這種罕見的任務。

強化檢測作爲語言檢測通常使用i向量來實現。教程是here。實施是available in Kaldi。

即使你的句子是固定的，你也需要大量的數據來訓練系統。收集重音語音可能會更容易，而不會關注您擁有的特定句子。因爲你需要將說話者內在的東西與口音內在的東西分開（基本上執行像i-向量這樣的因式分解），所以端到端張量流的實現也是可能的，但可能需要太多的數據。您可以找到類似作品的描述，例如this和this one。

來源

2016-11-26 20:03:38

口音檢測API？

回答

相關問題