我的工作/研究用於教育目的的一個項目的想法,並希望做有關語音識別的,沒有什麼太大的項目只是一個介紹,讓我開始在外地。基本上,項目和算法會接受(.wav)文件的輸入,然後確定說話的人是說「是」還是說「不」。我正在尋找使用線性預測編碼。語音識別 - 線性預測編碼
基本上,在我的腦海,我想下面的算法:
- 閱讀在.WAV(原始數據)爲載體
- 斯普利特矢量分成大小相同的塊
- 處理特定特性
- 每塊查找其模型是最有可能匹配到其生產的手機的串詞。
然後我想使用相似性度量,例如相關來找到正確的手機。
所以,基本上,數據文件被讀入後,並分割成塊。應該/將包含類似:
rawdata =
[0] => 'Y',
[1] => 'E',
[2] => 'S'
或將要包含然後可以進行比較的頻率結果與電話。
我的問題是,這是否看起來像一個好的算法來工作過解決問題..
我的下一個問題:
當我嘗試在一個.wav文件讀入內存中,我得到(類)下面的結果..
20 30 10 30 40 50 .. 20 20 .. 10 20 .. 60 40
10 20 30 40 50 60 ... .. . . . .
他們都是整數值,所以,一旦我已經採取了所有的報頭信息。該數據的其餘部分是什麼,我需要轉換成正確的媒體然後這是數據..?我有點困惑。
希望有人能幫助我,而且,我已經正確寫入問題出來了。謝謝。
爲什麼我得到負面反饋?!?那怎麼不清楚?上帝 – Phorce 2012-08-12 22:26:11
因爲你的問題過於寬泛。 – orlp 2012-08-12 22:28:46
ok ....我放棄 – Phorce 2012-08-12 22:39:32