2
算法只是從輸入數據數組中構建一個新列表。它僅追加從輸入陣列中的新的元素一旦元件已經越過先前的存儲元件的visibleDelta閾:有沒有辦法在numpy中執行這種subsampling算法?
def subsample(data, visibleDelta):
subsampled = [data[0]]
for point in data[1:]:
if abs(point - subsampled[len(subsampled) - 1]) > visibleDelta:
subsampled.append(point)
return subsampled
問題是我需要這個運行在非常大的數據集(〜1B值),並且我如果可能的話,喜歡使用numpy或其他數字庫來做到這一點。
我應該提到,'真正'的功能不會只處理一維數組數據。輸入數據將是熊貓數據框,第一列是x值,第二列是y值(我將比較y值)。
任何方式來有效地做到這一點?