我一直在研究構建移動/網絡應用程序的可行性,該應用程序允許用戶說出一個詞組並檢測用戶的口音(波士頓,紐約,加拿大等)。用戶可以說約5到10個預定義的短語。我熟悉可用的一些Speech to Text API(Nuance,Bing,Google等),但似乎都沒有提供這種附加功能。我發現的最接近的例子是谷歌現在或微軟的說話人識別API:口音檢測API?
http://www.androidauthority.com/google-now-accents-515684/
https://www.microsoft.com/cognitive-services/en-us/speaker-recognition-api
因爲那裏將是5-10預定義的短語我想用一臺機器學習軟件如Tensorflow或Wekinator。我會將每個口音中創建的初始音頻用作初始數據。在深入探索這條道路之前,我只想獲得關於這種方法的一些反饋,或者是否有更好的方法。讓我知道是否需要澄清任何事情。