2016-03-07 50 views
0

我對統計和時間序列非常陌生,並且我正在按照本教程(http://www.johnwittenauer.net/a-simple-time-series-analysis-of-the-sp-500-index/)進行時間序列分析。所以,我得到了我的第一個數據差異的固定時間序列,所以我沒有采取任何日誌的第一個區別。 (見附件)。由於我的數據分辨率爲1分鐘(每分鐘服務器的交易次數),因此我想用前一天的數據預測第二天,我也創建了lag 1440的滯後變量。出於這個原因,我繪製了滯後1440與滯後0變量的散點圖,我似乎無法解釋這個圖。在我看來,這是每週相關的,但任何人都可以證實?如何解釋滯後與當前可變散點圖

此外,我嘗試從scipy.stats.stats嘗試pearsonr函數並返回(nan,1.0),而numpy.corrcoef()返回所有nan矩陣。

任何幫助wpuld將不勝感激。

在此先感謝。

first diff & log first diff

Lag 1440 vs Lag 0

+0

我認爲這個問題在這裏大部分是題外話題,因爲解釋散點圖不是關於程序設計的(這會更適合於[交叉驗證](http://stats.stackexchange.com/)),但是, nans可以被認爲是一個編程問題,無論如何,我會盡力幫助這兩點。** 1。散點圖中的數據看起來與我完全不相關,你可以在一天內將值接近0,任何價值在前一天,所以幾乎沒有任何預測可能(但是,一天中很高的價值不太可能對應於其他日子的非常高的價值) – kazemakase

回答

0

在這裏,我會回答你問題的第二部分 - (關於散點圖的解釋,看到我的問題的評論),它涉及編程之一。

2.事實上,你得到nans的相關性可能是由於你在數據中有nans或其他無效值。事實上,在第二次系列賽中有一個很小的差距(在7月份之後的第三次衝刺之前)。這種差距通常表明南非。

如果數據中有這些無效值(nan,inf等),它們通常傳播到彙總統計信息(如相關性)。

解決方案取決於手頭的問題。您可以嘗試跳過值缺失的部分時間序列,或者嘗試用默認值(例如0)替換它們。

+0

嗨。感謝您的快速回復。好吧,我確實做了df.dropna()來刪除nan值,我確實有'0'值,那麼這會導致一個問題呢?這是當我試圖將第一個區別與那些不產生'inf'值的區域聯繫起來時 –

+0

0值不應該導致nan在Korrelation中,除非整個信號爲0. – kazemakase

+0

否從圖中可以看到整個信號看起來很完美。它可能是由於缺少點嗎?我刪除具有nan或0值的時間戳 –