我有我記錄每天的「喜歡」爲Facebook頁面的集合。確定顯著增長
我想找出那些正在成長最快的。問題是我想知道如何去除少數喜歡的頁面和喜歡很多喜歡的頁面的'噪音'。
是否有任何通用的技術或方法用於什麼,我想在這裏做什麼?
我有我記錄每天的「喜歡」爲Facebook頁面的集合。確定顯著增長
我想找出那些正在成長最快的。問題是我想知道如何去除少數喜歡的頁面和喜歡很多喜歡的頁面的'噪音'。
是否有任何通用的技術或方法用於什麼,我想在這裏做什麼?
的更多或更少的統計學正確的(和簡單的)的答案是:
假設第一測量爲x喜歡,第二設爲y喜歡,
然後生長的自然對數的估計由
日誌(Y/X)與開方的誤差估計(1/X + 1/Y)
但既然你有興趣在增長的保守估計,你應該使用類似給出〜5%的置信區間。 所以我會推薦使用folllowing函數來排列你的數據集。 日誌(Y/X) - 2 * SQRT(1/X + 1/y)的
例如:
生長1至10將得到的0.2
生長從100到分數400將獲得10000〜15000 1.16
增長將比分獲得0.38
一本估計的重要屬性的得分將是從生長 說10000-100000會比排名更高從1000增長到10000,反過來將排名高於從100增長到1000等...
我不明白的一點是,舉個例子: log(10/1) - 2 * sqrt(1/1 + 1/10)= -1.09 | (400/100) - 2 * sqrt(1/100 + 1/400)= 0.37 | log log(15000/10000) - 2 * sqrt(1/10000 + 1/15000)= 0.15 我做錯了什麼? – user217562
你顯然使用log_10,而你應該使用自然的。 –
一種可能性是創造增長,其既考慮百分比和絕對數字合成度量。
我會建議服用第1天喜歡的排名第10爲底的對數,並與增長百分比乘以它在這個「成長等級」如約到達,我會打電話的。
如果你看看「最終度量標準」規定的增長,你認爲顯著和更小的數字增長不考慮顯著的最大數量。
你需要某種加權應用到的百分比增長,我建議日誌(B/10),所以你將排名由度量是:
score = log(B/10) * C
您可以用常數項實驗那裏還有日誌庫。現在做這件事的一個好工具是google,例如,在谷歌搜索中輸入以查看加權函數的圖示:
y = log(x/10)
或者獲取gnuplot的副本。
您要找的[標準偏差](http://en.wikipedia.org/wiki/Standard_deviation) - 拒絕不在σ+/-平均值範圍內的值,您將獲得很好 –
對於少數喜歡 - 爲什麼不忽略所有少於100頁的頁面?不知道你是什麼意思,雖然大量的喜歡.. – Geo
嗨,這裏是一個JavaScript插圖:http://jsfiddle.net/TB4U3/2/它只是外推測量數據,然後你可以選擇一個時間在未來,並在這一點上對推斷數據進行排序。 – biziclop