2012-01-28 46 views
4

我有一組新聞文章,其中有統計數據,例如:提供文章的日期範圍的Twitter帖子數量。統計值的自然行爲是,新帖子的數量增長迅速,然後隨着新聞老化而減少。如何檢測時間序列數據的變化是否不再顯着?

我想知道如何計算統計數據變化不再顯着的天數(例如:<佔職位總數的0.1%),並且對於整個數據集具有一定置信度。

你能否提供一些提示以尋找信息和方法?我會很欣賞Python中的一些代碼示例:)

+0

你想要你的程序「學習」或者只是想知道你需要什麼樣的價值,這樣你就可以硬編碼了嗎? – 0xc0de 2012-01-28 06:44:09

+0

簡化:只要學習該值就足夠了 – xvga 2012-01-28 12:40:51

回答

8

這個問題真的是關於時間序列分析。由於您有興趣確定截止點,因此您可以通過閱讀Control Charts來開啓一個好地方。 如果您想深入研究統計數據(超出控制圖表),請查看Change Point Analysis,並查看時間序列中的結構更改。

的Python模塊:要執行此分析在Python,NumPy的大熊貓模塊是相關的。這個post in statalgo將使您在Python代碼方面走上正軌。 (如果你是開放的,使用R爲您分析,考慮CRAN包TSERIESstrucchange)在SE(統計)

初步認識問題How to detect a change in time series data?

相關的真實生活中的例子 :在烏薩馬本拉登去世後,在推特上有很多analysis done on how that piece of news spread。該文章甚至有一個專門關於您的問題的消息傳播的停止的一個部分。

最後,您也可以考慮在Stats SE site中詢問。

希望有所幫助。

相關問題