librosa

    1熱度

    2回答

    我目前正在嘗試迴歸網絡來提取MFCC功能。網絡的輸入是採樣和成幀的音頻文件,我似乎遇到了一些問題,或者以某種方式進行處理,以便獲得一致的輸出 - 這意味着一致的幀大小,因爲它不會用作輸入爲神經網絡。 我目前取樣和幀的每個音頻文件作爲例如: def load_sound_files(file_paths , data_input): raw_sounds = [] data_ou

    0熱度

    1回答

    我目前正在使用ASR系統,但我忘記了將窗口函數應用於每個幀。我正在提取,這可能是我爲什麼收到糟糕結果的原因。但在librosa中可能嗎? 我在librosa文檔中找不到這個選項。 我需要對每幀提供一個漢明窗口,這些窗口被提取出來。 for fp in file_paths: y,sr = librosa.load(fp,sr=16000) X = librosa.util.

    1熱度

    1回答

    我目前試圖採樣音頻文件並將採樣信息存儲到txt文件中。 採樣使用librosa完成。 當我將它保存到一個文件中時發生問題... 該數組沒有得到完全保存,我只能查看一些採樣點,其餘的點是虛線。 例如: 22050.000 [ -8.61534572e-05 -1.64340396e-04 -8.03423245e-05 ..., -1.40137578e-04 -3.71412549e-

    3熱度

    1回答

    所以我正在學習機器學習,並想知道mfcc特徵大小如何影響RNN(Recurent神經網絡)? 隨着librosa我提取MFCC然後增量係數和後,我得到尺寸的陣列[13,sound_length] 用蟒提取MFCC和增量係數的代碼:(Y - 聲音文件數據,SR - y的長度) mfcc = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13) mfcc_delta

    0熱度

    1回答

    在Linux Mint 18 Mate x64上安裝了Librosa(https://github.com/librosa/librosa)之後,出現了很多問題。當我要運行示例腳本,例如:http://librosa.github.io/librosa/generated/librosa.feature.tempogram.html#librosa.feature.tempogram,它以「分段故

    3熱度

    2回答

    當執行STFT,然後在一個16位的44.1 kHz的音頻文件與庫Librosa逆STFT(ISTFT): import librosa y, sr = librosa.load('test.wav', mono=False) y1 = y[0,] S = librosa.core.stft(y1) z1 = librosa.core.istft(S, dtype=y1.dtype) l

    0熱度

    2回答

    我對MFCC的理解有點困惑。 從我讀過的梅爾過濾器庫應該是一系列的三角形變得更寬,他們的峯位於相同的地方。像這樣... http://imgur.com/UCh5OjK 然而,當我使用計算我librosa讓梅爾濾波器組... http://imgur.com/ps3yizk 代碼: mel_basis = librosa.filters.mel(sr=sr, n_fft=512, n_mels=1

    1熱度

    1回答

    我目前正在採樣和構造一些音頻文件,以便我可以將它作爲神經網絡的輸入提供。我正在使用Librosa來對音頻進行採樣並對其進行採樣,特別是採樣幀非常重要,因爲這是作爲神經網絡需求的輸入饋送的,這意味着長度必須一致,這似乎是我當前的問題。幀。 我目前取樣和成幀是這樣的: def load_sound_files(file_paths , data_input): raw_sounds = []