Python 3人工智能：離線STT和TTS

所以我一直在用python編程一段時間。我在python中通過文本進行了一些簡單的AI chatbots。我想把它提升到一個新的水平，一種個人伴侶AI。我的目標是把它放在樹莓上（我有一個便攜式充電器，麥克風和與pi兼容的揚聲器），並使其成爲離線AI，用於交談，記筆記，記憶信息等。我想知道一種方法將離線STT和TTS引擎合併到我的Python程序中。（我發現的大多數STT和TTS引擎都是通過谷歌，亞馬遜等在線）在此先感謝。Python 3人工智能：離線STT和TTS

來源

2016-01-06 The Tesseract' s Shadow

[CMUSphinx]（http://cmusphinx.sourceforge.net/）例如，[關鍵字搜索]（https://github.com/cmusphinx/pocketsphinx/blob/master/swig/python/測試/ kws_test.py）。 – jfs

@ J.F.Sebastian我聽說過CMUSpinx，但我選擇不使用，因爲我聽說它不能很好地工作。 –

你應該在你的問題中提及你已經嘗試了什麼以及它爲什麼不適合你。 – jfs

我有檢查離線STT。我試圖在下面運行所有這些，看看我的意見。

你可以根據你的目的來看它們。

在線

wit.ai https://wit.ai/ 這可以在商業產品中使用。
爲機器人，應用程序，服務和設備構建品牌獨特的自然語言交互。 https://api.ai/ https://docs.api.ai/docs/languages

離線

CMUSphinx http://cmusphinx.sourceforge.net CMU Sphinx的語音識別引擎。 CMU獅身人面像 - 語音識別工具包 - 離線語音識別，由於資源要求低可用於移動設備。
https://pypi.python.org/pypi/SpeechRecognition/ https://github.com/Uberi/speech_recognition
eSpeak時NG是支持93種語言和口音一個開源語音合成器。（支持Chineese） https://github.com/rhdunn/espeak eSpeak是一款緊湊型，多語言，開源的文本到語音合成器。它只是讀取文本文件和標準輸入（在控制檯行中）。
UWP語音識別從微軟通用的Windows平臺 https://docs.microsoft.com/en-us/windows/uwp/input-and-devices/speech-recognition 啓用語音識別爲Windows運行時應用程序中的指揮和控制。
Kaldi是一個語音識別工具包，用C++語言編寫，並在Apache許可證2.0版中獲得許可。 Kaldi旨在供語音識別研究人員使用。（支持Chineese） https://github.com/kaldi-asr/kaldi http://kaldi-asr.org/doc/about.html 在Windows上安裝期間，出現錯誤，無法繼續。此外，這是寫在網站上：「請注意，Windows安裝程序正在成爲過時的，而不是定期測試，而不是所有的代碼當前編譯就可以了。」
Tensorflow語音識別https://github.com/pannous/tensorflow-speech-recognition 使用谷歌張量流深度學習框架，序列 - 序列神經網絡進行語音識別。它是研究導向。該項目於https://github.com/pannous/caffe-speech-recognition
深語音進行https://github.com/mozilla/DeepSpeech 一個TensorFlow實現百度的DeepSpeech架構的它是面向研究。

來源

2017-04-19 07:35:56

我找到了另一個。你可以檢查

「嘿雅典娜」是一個100％的開源模塊化語音助理框架。我們的目標是完成Siri，Cortana和Echo所能做的一切 - 甚至更多。您的個人語音助理。用Python編寫。

https://github.com/rcbyron/hey-athena-client

來源

2017-04-19 07:58:22

Python 3人工智能：離線STT和TTS

回答

相關問題