2016-01-06 370 views
1

所以我一直在用python編程一段時間。我在python中通過文本進行了一些簡單的AI chatbots。我想把它提升到一個新的水平,一種個人伴侶AI。我的目標是把它放在樹莓上(我有一個便攜式充電器,麥克風和與pi兼容的揚聲器),並使其成爲離線AI,用於交談,記筆記,記憶信息等。我想知道一種方法將離線STT和TTS引擎合併到我的Python程序中。 (我發現的大多數STT和TTS引擎都是通過谷歌,亞馬遜等在線)在此先感謝。Python 3人工智能:離線STT和TTS

+0

[CMUSphinx](http://cmusphinx.sourceforge.net/)例如,[關鍵字搜索](https://github.com/cmusphinx/pocketsphinx/blob/master/swig/python/測試/ kws_test.py)。 – jfs

+0

@ J.F.Sebastian我聽說過CMUSpinx,但我選擇不使用,因爲我聽說它不能很好地工作。 –

+2

你應該在你的問題中提及你已經嘗試了什麼以及它爲什麼不適合你。 – jfs

回答

1

我有檢查離線STT。我試圖在下面運行所有這些,看看我的意見。

你可以根據你的目的來看它們。

在線

  1. wit.ai https://wit.ai/ 這可以在商業產品中使用。

  2. 爲機器人,應用程序,服務和設備構建品牌獨特的自然語言交互。 https://api.ai/ https://docs.api.ai/docs/languages

離線

  1. CMUSphinx http://cmusphinx.sourceforge.net CMU Sphinx的語音識別引擎。 CMU獅身人面像 - 語音識別工具包 - 離線語音識別,由於資源要求低可用於移動設備。

  2. https://pypi.python.org/pypi/SpeechRecognition/ https://github.com/Uberi/speech_recognition

  3. eSpeak時NG是支持93種語言和口音一個開源語音合成器。 (支持Chineese) https://github.com/rhdunn/espeak eSpeak是一款緊湊型,多語言,開源的文本到語音合成器。它只是讀取文本文件和標準輸入(在控制檯行中)。

  4. UWP語音識別從微軟通用的Windows平臺 https://docs.microsoft.com/en-us/windows/uwp/input-and-devices/speech-recognition 啓用語音識別爲Windows運行時應用程序中的指揮和控制。

  5. Kaldi是一個語音識別工具包,用C++語言編寫,並在Apache許可證2.0版中獲得許可。 Kaldi旨在供語音識別研究人員使用。 (支持Chineese) https://github.com/kaldi-asr/kaldi http://kaldi-asr.org/doc/about.html 在Windows上安裝期間,出現錯誤,無法繼續。 此外,這是寫在網站上:「請注意,Windows安裝程序正在成爲過時的,而不是定期測試,而不是所有的代碼當前編譯就可以了。」

  6. Tensorflow語音識別https://github.com/pannous/tensorflow-speech-recognition 使用谷歌張量流深度學習框架,序列 - 序列神經網絡進行語音識別。 它是研究導向。該項目於https://github.com/pannous/caffe-speech-recognition

  7. 深語音進行https://github.com/mozilla/DeepSpeech 一個TensorFlow實現百度的DeepSpeech架構 的它是面向研究。

0

我找到了另一個。你可以檢查

「嘿雅典娜」是一個100%的開源模塊化語音助理框架。我們的目標是完成Siri,Cortana和Echo所能做的一切 - 甚至更多。您的個人語音助理。用Python編寫。

https://github.com/rcbyron/hey-athena-client