2011-11-10 97 views
1

我想找到一些開放源代碼(雖然我會解決一個封閉的源產品)來轉換日語假名(即輔音+元音對)並實時打印出來。語音識別:檢測日語假名(輔音+元音)

但是,我想將這些基本的聲音單元用於我自己的自定義目的,所以我不希望任何嘗試提取真正日語單詞的高級處理。我只想得到原始假名。

有人知道這樣的技術嗎?

今天剛剛我才知道日文字母基本上是一個0123x的10x5格。 10列(空+9輔音)和5行(元音)

並且每個元素被稱爲'假名',並且該語言由這些假名的序列組成;這些是基本的構建塊。

這肯定會對語音識別算法產生很大的影響。

對於西方語言,所有的商業語音識別引擎,我知道的派生從CMUSphinx其在三克模式運行:它代表了一個獨特的MFCC矢量三個音素之間的每一個動作,並計算出最有可能的三克一個話語的序列(從中可以平均地推導出音素,然後運行它的WORD三元組詞典,找出最可能的句子)。

但是對於像日語這樣的語言,我猜測這可能不再是最有效的算法。

相反,嘗試捕捉每個單獨的假名或假名對可能是有意義的。

...這將是2克或4克。但不是3!

那裏有什麼嗎?或者他們只是使用西方世界的相同引擎?

回答

2

Julius擁有日語的聲學和語言模型。 試試看看它是否適合你的應用。

我不知道他們訓練有素的語言模型,但Julius可以支持 反向傳球中的任何命令n-gram。在前進中,它支持bigram。通常在反向 階段使用4克。兩個LM都使用Julius工具放在一起。

Luis ASR Labs

+0

Thanks!鏈接在這裏:http://julius.sourceforge.jp/en_index.php?q=index-en.html –