1

假設我有音頻和該音頻的明文成績單,如何使用語音識別以編程方式從兩者生成字幕?通過語音識別從預先存在的成績單生成字幕

這與編輯視頻時YouTube在其字幕/字幕頁面上提供的內容非常相似。

有什麼API可以做到這一點?它有哪些挑戰?

我最流利的Java/C#,但這是語言不可知論的。

回答