C＃的FFT不準確性

我一直在試驗FFT算法。我使用NAudio和來自互聯網的FFT算法的工作代碼。根據我對錶演的觀察，所得到的音高是不準確的。C＃的FFT不準確性

發生什麼是我有一個MIDI（從GuitarPro生成）轉換爲WAV文件（44.1khz，16位，單聲道），包含從E2（最低吉他音符）開始到約E6的音高級數。低音（E2-B3附近）的結果通常非常錯誤。但是到達C4它有點正確，因爲你已經可以看到正確的進程（下一個音符是C＃4，然後是D4等）。然而，問題在於檢測到的音高比實際音高低一半例如C4應該是註釋，但顯示D＃4）。

您認爲什麼可能是錯誤的？如有必要，我可以發佈代碼。非常感謝！我仍然開始掌握DSP的領域。

編輯：這是一個什麼Im做

byte[] buffer = new byte[8192]; 
int bytesRead; 
do 
{ 
    bytesRead = stream16.Read(buffer, 0, buffer.Length); 
} while (bytesRead != 0);

然後粗糙從頭開始：（waveBuffer是一個簡單的類，它是有轉換的字節[]爲浮動[]，因爲函數只接受浮動[]）

public int Read(byte[] buffer, int offset, int bytesRead) 
{ 
    int frames = bytesRead/sizeof(float); 
    float pitch = DetectPitch(waveBuffer.FloatBuffer, frames); 
}

最後一點：（Smbpitchfft是具有FFT算法中的類......我相信那裏有什麼不妥的地方所以我不會在這裏張貼）

private float DetectPitch(float[] buffer, int inFrames) 
{ 
    Func<int, int, float> window = HammingWindow; 
    if (prevBuffer == null) 
    { 
    prevBuffer = new float[inFrames]; //only contains zeroes 
    } 

    // double frames since we are combining present and previous buffers 
    int frames = inFrames * 2; 
    if (fftBuffer == null) 
    { 
    fftBuffer = new float[frames * 2]; // times 2 because it is complex input 
    } 

    for (int n = 0; n < frames; n++) 
    { 
    if (n < inFrames) 
    { 
     fftBuffer[n * 2] = prevBuffer[n] * window(n, frames); 
     fftBuffer[n * 2 + 1] = 0; // need to clear out as fft modifies buffer 
    } 
    else 
    { 
     fftBuffer[n * 2] = buffer[n - inFrames] * window(n, frames); 
     fftBuffer[n * 2 + 1] = 0; // need to clear out as fft modifies buffer 
    } 
    } 
    SmbPitchShift.smbFft(fftBuffer, frames, -1); 
    }

並解釋結果：

float binSize = sampleRate/frames; 
int minBin = (int)(82.407/binSize); //lowest E string on the guitar 
int maxBin = (int)(1244.508/binSize); //highest E string on the guitar 

float maxIntensity = 0f; 
int maxBinIndex = 0; 

for (int bin = minBin; bin <= maxBin; bin++) 
{ 
    float real = fftBuffer[bin * 2]; 
    float imaginary = fftBuffer[bin * 2 + 1]; 
    float intensity = real * real + imaginary * imaginary; 
    if (intensity > maxIntensity) 
    { 
     maxIntensity = intensity; 
     maxBinIndex = bin; 
    } 
} 

return binSize * maxBinIndex;

UPDATE（如果有人仍有意）：

所以，下面陳述的答案之一是從FFT頻率峯值並不總是等同於間距。我明白那個。但是我想爲自己嘗試一些事情（假設有時候頻率峯值是最終的音調）。所以基本上，我得到了2個軟件（DewResearch的SpectraPLUS和FFTProperties;對他們的評分），能夠顯示音頻信號的頻域。

因此，這裏有在時域頻率峯值的結果： enter image description here

這是使用測試注意做到：

SpectraPLUS

和FFT屬性A2（大約110Hz）。在查看這些圖像時，他們的頻譜峯值在SpectraPLUS 102-112 Hz範圍內，FFT Properties 108 Hz範圍內。在我的代碼中，我得到了104Hz（我使用8192塊，採樣率爲44.1khz ... 8192然後加倍使其成爲複雜的輸入，所以最終我得到了5Hz左右的binins，與SpectraPLUS的10Hz binsize相比）。

所以現在我有點困惑，因爲在軟件上他們似乎返回正確的結果，但在我的代碼，我總是得到104Hz（注意，我已經比較了我使用的FFT函數，如Math.Net這似乎是正確的）。

您是否認爲這個問題可能與我對數據的解釋有關？或者在顯示頻譜之前軟件是否做了其他的事情？謝謝！

來源

2011-02-11 user488792

嗨！我爲maxBinIndex得到的值是在bin 20（大約100-104 Hz），這導致在G＃周圍，這是從假設的A開始的一半的音符。這與其他.wav文件一致，有時是整個步驟下。 – user488792 2011-02-23 03:54:50

@eryksun謝謝！你最後的觀點很有趣。我會試着去研究它。 – user488792 2011-02-23 07:14:47

@eryksun嗨！非常感謝你！這似乎是問題所在。我的代碼現在可以工作並返回正確的頻率。似乎我錯過了Paul R答案的解決方案，因爲那時我還沒有做過很多有關FFT的內容。但是，我已經學到了很多，謝謝你的幫助。再次感謝！ – user488792 2011-02-23 12:30:52

這聽起來像你可能有FFT輸出的解釋問題。幾個隨機點：

的FFT具有有限的分辨率 - 每個輸出存放箱具有Fs/N，其中Fs是採樣速率和N分辨率是FFT
的用於紙幣的尺寸在連續音符之間的頻率差異相對較小，因此您需要足夠大的N來區分兩個音符之間的音符（見下面注1）
第一個音符（索引0）包含能在0Hz爲中心，但包括能量+/- Fs/2N
斌i包含集中精力在i * Fs/N，但包括能量+/- Fs/2N該中心頻率兩側
你會得到spectral leakage從相鄰支路 - 多麼糟糕，這是取決於你使用的什麼window function - 沒有窗口（==矩形窗口）和頻譜泄漏將是非常糟糕的（非常寬的峯值） - 對於頻率估計，你想選擇一個窗口函數，讓你有尖銳的峯值
pitch is不與頻率相同 - 音高是一種感知，頻率是一種物理量 - 根據樂器類型的不同，樂器感知的音高可能與基本頻率略有不同（某些樂器甚至不會在其樂器上產生大量能量基頻，但我們仍然認爲他們的音調，彷彿根本存在）

從可用但有限的信息，我最好的猜測是，也許你是「關閉一個」的地方在你的bin指數轉化爲頻率，或者您的FFT太小而無法爲低音提供足夠的分辨率，並且您可能需要增加N.您可以改進通過倒譜分析等多種技術，或者通過查看FFT輸出的相位分量並將其與連續FFT進行比較（這允許在給定的FFT大小下在一個分箱內進行更準確的頻率估計），來實現您的音調估計。

注

（1）只要把一些數字上這個，E2是82.4赫茲，F2是87.3赫茲，所以你需要一個分辨率稍好於5赫茲最低的兩個音之間區分在一把吉他上（如果你真的想要做的話，比如精確調音，這要比這更精細）。在一個44.1 kHz的採樣點上，你可能需要一個至少爲N = 8192的FFT來給出足夠的分辨率（44100/8192 = 5.4 Hz），可能N = 16384會更好。

來源

2011-02-11 08:51:12

我有一個similar question和我的答案是使用Goertzel而不是FFT。如果你知道你正在尋找什麼音色（MIDI）Goertzel能夠在一個正弦波（一個週期）內檢測到音調。它通過生成聲音的正弦波並「將其放在原始數據的頂部」來查看它是否存在。 FFT對大量數據進行採樣以提供近似頻譜。

來源

2011-02-11 12:48:38

音樂音高不同於頻率峯值。音高是一種心理感知現象，可能更多地取決於泛音等。在實際的信號頻譜中，人類稱之爲音調的頻率可能會丟失或很小。

頻譜中的頻率峯值可能與任何FFT bin中心不同。 FFT倉中心頻率的頻率和間距將根據FFT長度和採樣率而變化，而不是數據中的頻譜。

所以你至少有兩個問題需要抗衡。有大量關於頻率估計的學術論文以及音高估計的單獨主題。從那裏開始。

來源

2011-02-11 20:03:57 hotpaw2

我認爲這可能對你有幫助。我製作了吉他的6個開放琴絃的一些情節。該代碼是在使用Python pylab，我建議用於試驗：

# analyze distorted guitar notes from 
# http://www.freesound.org/packsViewSingle.php?id=643 
# 
# 329.6 E - open 1st string 
# 246.9 B - open 2nd string 
# 196.0 G - open 3rd string 
# 146.8 D - open 4th string 
# 110.0 A - open 5th string 
# 82.4 E - open 6th string 

from pylab import * 
import wave 

fs = 44100.0 
N = 8192 * 10 
t = r_[:N]/fs 
f = r_[:N/2+1] * fs/N 
gtr_fun = [329.6, 246.9, 196.0, 146.8, 110.0, 82.4] 

gtr_wav = [wave.open('dist_gtr_{0}.wav'.format(n),'r') for n in r_[1:7]] 
gtr = [fromstring(g.readframes(N), dtype='int16') for g in gtr_wav] 
gtr_t = [g/float64(max(abs(g))) for g in gtr] 
gtr_f = [2 * abs(rfft(g))/N for g in gtr_t] 

def make_plots(): 
    for n in r_[:len(gtr_t)]: 
     fig = figure() 
     fig.subplots_adjust(wspace=0.5, hspace=0.5) 
     subplot2grid((2,2), (0,0)) 
     plot(t, gtr_t[n]); axis('tight') 
     title('String ' + str(n+1) + ' Waveform') 
     subplot2grid((2,2), (0,1)) 
     plot(f, gtr_f[n]); axis('tight') 
     title('String ' + str(n+1) + ' DFT') 
     subplot2grid((2,2), (1,0), colspan=2) 
     M = int(gtr_fun[n] * 16.5/fs * N) 
     plot(f[:M], gtr_f[n][:M]); axis('tight') 
     title('String ' + str(n+1) + ' DFT (16 Harmonics)') 

if __name__ == '__main__': 
    make_plots() 
    show()

字符串1，基本= 329.6赫茲：

String 1, f0 = 329.6 Hz