Elman SRN的文字/音位語料庫（英文）

我正在寫Elman Simple Recurrent Network。我想給它一連串的單詞，每個單詞都是一個音素序列，我想要大量的訓練和測試數據。Elman SRN的文字/音位語料庫（英文）

所以，我需要的是英語單詞的語料庫，以及它們組成的音素，寫成類似ARPAbet或SAMPA的音素。英國英語會很好，但只要我知道我在處理什麼就不是必需的。有什麼建議麼？

我目前沒有時間或傾向來編碼一個詞，它是由口頭或書面數據組成的一個詞組成的，因此請不要這樣做。

注意：我知道CMU Pronouncing Dictionary，但它聲稱它只是基於ARPABet符號集 - 任何人都知道實際上是否有任何區別，以及它們是什麼？（如果沒有，那我就可以用......）

編輯：CMUPD 0.7a Symbol list - 元音可能有詞彙壓力，並且有（ARPABET標準符號的）變體指出這一點。

來源

2011-09-07 Iskar Jarak

CMUPD ARPABet和什麼區別？定期的arpabet？ – ealdent

是的，CMUPD ARPAbet和普通ARPAbet。 –

CMUdict應該沒問題。「Arpabet符號集」意味着Arpabet。如果有任何細微差異，應在CMUdict文檔中對其進行說明。

如果需要，這比單個詞語詞典發音串聯起來更貼近現實生活，尋找音素轉錄語料庫，例如，TIMIT數據。

來源

2011-09-08 08:43:50 aab

我的主要問題不是該短語的「符號集」部分，而是「基於」部分。看着自己[符號列表（https://cmusphinx.svn.sourceforge.net/svnroot/cmusphinx/trunk/cmudict/cmudict.0.7a.symbols），與我聯繫到我的問題頁面上的描述相結合，唯一的區別似乎是他們添加了表明詞彙壓力的變體。此外，感謝提及語音轉錄的語料庫 - 這是一個很好的方向，讓我一旦掌握了單個詞語的基礎知識，就可以很好地工作。 –

Elman SRN的文字/音位語料庫（英文）

回答

相關問題