如何解釋滯後與當前可變散點圖

我對統計和時間序列非常陌生，並且我正在按照本教程（http://www.johnwittenauer.net/a-simple-time-series-analysis-of-the-sp-500-index/）進行時間序列分析。所以，我得到了我的第一個數據差異的固定時間序列，所以我沒有采取任何日誌的第一個區別。（見附件）。由於我的數據分辨率爲1分鐘（每分鐘服務器的交易次數），因此我想用前一天的數據預測第二天，我也創建了lag 1440的滯後變量。出於這個原因，我繪製了滯後1440與滯後0變量的散點圖，我似乎無法解釋這個圖。在我看來，這是每週相關的，但任何人都可以證實？如何解釋滯後與當前可變散點圖

此外，我嘗試從scipy.stats.stats嘗試pearsonr函數並返回（nan，1.0），而numpy.corrcoef（）返回所有nan矩陣。

任何幫助wpuld將不勝感激。

在此先感謝。

來源

2016-03-07 Debasish Kanhar

我認爲這個問題在這裏大部分是題外話題，因爲解釋散點圖不是關於程序設計的（這會更適合於[交叉驗證]（http://stats.stackexchange.com/）），但是， nans可以被認爲是一個編程問題，無論如何，我會盡力幫助這兩點。** 1。散點圖中的數據看起來與我完全不相關，你可以在一天內將值接近0，任何價值在前一天，所以幾乎沒有任何預測可能（但是，一天中很高的價值不太可能對應於其他日子的非常高的價值） – kazemakase

在這裏，我會回答你問題的第二部分 - （關於散點圖的解釋，看到我的問題的評論），它涉及編程之一。

2.事實上，你得到nans的相關性可能是由於你在數據中有nans或其他無效值。事實上，在第二次系列賽中有一個很小的差距（在7月份之後的第三次衝刺之前）。這種差距通常表明南非。

如果數據中有這些無效值（nan，inf等），它們通常傳播到彙總統計信息（如相關性）。

解決方案取決於手頭的問題。您可以嘗試跳過值缺失的部分時間序列，或者嘗試用默認值（例如0）替換它們。

來源

2016-03-07 20:45:52 kazemakase

嗨。感謝您的快速回復。好吧，我確實做了df.dropna（）來刪除nan值，我確實有'0'值，那麼這會導致一個問題呢？這是當我試圖將第一個區別與那些不產生'inf'值的區域聯繫起來時 –

0值不應該導致nan在Korrelation中，除非整個信號爲0. – kazemakase

否從圖中可以看到整個信號看起來很完美。它可能是由於缺少點嗎？我刪除具有nan或0值的時間戳 –

如何解釋滯後與當前可變散點圖

回答

相關問題