2010-02-10 46 views
2

我正處於實施工具的第一階段,以比較2個市場數據源,以便向我的老闆證明新開發源的質量(意思是沒有迴歸,沒有錯過更新或錯誤),並且證明延遲改善。如何比較市場數據饋送源的質量和延遲改進?

所以工具,我需要必須能夠檢查更新差異以及告知其來源是最好的(在延遲期限)。

具體而言,參考來源可能是路透社,而另一個是我們內部開發的飼料處理程序。人們警告我說,更新可能不會按照路由器實施可能與我們完全不同的順序進行。因此,基於更新可能以相同順序到達的事實的簡單算法可能不起作用。

我的第一個想法是使用指紋進行比較飼料來源,如Shazaam應用確實找到您要提交管的稱號。谷歌告訴我這是基於FFT。我想知道信號處理理論是否可以在市場準入應用中表現良好。

我想知道在這個領域你自己的經驗,是可以開發一個相當準確的算法來滿足需求?你自己的想法是什麼?你如何看待基於指紋的比較?我看到周圍的公司行爲多個數據源飼料

+0

我是開發這種工具的公司的一部分。這不是微不足道的事情。這是確定性的 - 不是啓發式的。隨時與我聯繫獲取信息。 – Tim 2010-05-11 21:30:10

回答

1

如果提供的數據交換有這方面提供了實現數據的一些唯一標識符是相當簡單,但並不容易。

實質上,您有一個訂閱兩個訂閱源的應用程序。 (你可以用基於嗅探軟件來做到這一點,也可以用於非侵入式監測/測量 - 我也可以試着解決這個問題)

你會保留兩個列表(或其他任何記錄「不匹配」樣本的方法每個提要)的不匹配的數據/更新。隨着每次更新進入,您都需要從其他數據源中查找另一個列表中的相應項目。當您成功匹配時,您可以保存該配對。每次更新時,都必須以某種方式爲其分配一個「時間戳」 - 可能是本地計算機的時間。由於這種簡單情況下的起源是相同的交換,因此確定相對延遲相當容易。

此方法需要爲數據編寫訂閱應用程序。

有很多的問題,如處理丟失的更新和超時無與倫比的數據,如何處理交流或飼料可能不會更新提供了獨特的集成開發環境,圍繞數據工作的供應商的錯誤WRT本地VS UTC時間等

嗅探數據是相似的,但您可以通過pcap或硬件捕獲卡捕獲數據,然後根據數據包的端點解析數據流。這比直接訂閱要困難得多,但其優勢在於可以測量的數據集非侵入性和相當靈活。

0

一種方法只是維持一個啓發由獲悉飼料往往是最準確的歷史,因此他們的數據給予更大的權重。

當然,所有類型的市場數據公司行爲可能是最低的一個卷所以這種技術可能不會擴展到打勾數據!

+0

我覺得這個領域也想要非啓發式匹配和分析... – Tim 2010-05-11 21:32:13