我正在寫Elman Simple Recurrent Network。我想給它一連串的單詞,每個單詞都是一個音素序列,我想要大量的訓練和測試數據。Elman SRN的文字/音位語料庫(英文)
所以,我需要的是英語單詞的語料庫,以及它們組成的音素,寫成類似ARPAbet或SAMPA的音素。英國英語會很好,但只要我知道我在處理什麼就不是必需的。有什麼建議麼?
我目前沒有時間或傾向來編碼一個詞,它是由口頭或書面數據組成的一個詞組成的,因此請不要這樣做。
注意:我知道CMU Pronouncing Dictionary,但它聲稱它只是基於ARPABet符號集 - 任何人都知道實際上是否有任何區別,以及它們是什麼? (如果沒有,那我就可以用......)
編輯:CMUPD 0.7a Symbol list - 元音可能有詞彙壓力,並且有(ARPABET標準符號的)變體指出這一點。
CMUPD ARPABet和什麼區別?定期的arpabet? – ealdent
是的,CMUPD ARPAbet和普通ARPAbet。 –