2011-09-07 24 views
0

我正在寫Elman Simple Recurrent Network。我想給它一連串的單詞,每個單詞都是一個音素序列,我想要大量的訓練和測試數據。Elman SRN的文字/音位語料庫(英文)

所以,我需要的是英語單詞的語料庫,以及它們組成的音素,寫成類似ARPAbet或SAMPA的音素。英國英語會很好,但只要我知道我在處理什麼就不是必需的。有什麼建議麼?

我目前沒有時間或傾向來編碼一個詞,它是由口頭或書面數據組成的一個詞組成的,因此請不要這樣做。

注意:我知道CMU Pronouncing Dictionary,但它聲稱它只是基於ARPABet符號集 - 任何人都知道實際上是否有任何區別,以及它們是什麼? (如果沒有,那我就可以用......)

編輯:CMUPD 0.7a Symbol list - 元音可能有詞彙壓力,並且有(ARPABET標準符號的)變體指出這一點。

+0

CMUPD ARPABet和什麼區別?定期的arpabet? – ealdent

+0

是的,CMUPD ARPAbet和普通ARPAbet。 –

回答

3

CMUdict應該沒問題。 「Arpabet符號集」意味着Arpabet。如果有任何細微差異,應在CMUdict文檔中對其進行說明。

如果需要,這比單個詞語詞典發音串聯起來更貼近現實生活,尋找音素轉錄語料庫,例如,TIMIT數據。

+0

我的主要問題不是該短語的「符號集」部分,而是「基於」部分。 看着自己[符號列表(https://cmusphinx.svn.sourceforge.net/svnroot/cmusphinx/trunk/cmudict/cmudict.0.7a.symbols),與我聯繫到我的問題頁面上的描述相結合,唯一的區別似乎是他們添加了表明詞彙壓力的變體。此外,感謝提及語音轉錄的語料庫 - 這是一個很好的方向,讓我一旦掌握了單個詞語的基礎知識,就可以很好地工作。 –