2011-01-05 61 views
3

的Twitter最近announced,你可以通過輸入自己的追隨者近似高精度任何給定的Twitter用戶的級別以下公式計算:冪律曲線社交網絡配件查詢

EXP($ A + $ b *日誌(FOLLOWER_COUNT))

其中$ A = 21和$ b = -1.1

這顯然是一個很多比排序由跟隨用戶的整個列表計算給定用戶更高效。

如果您有來自不同社交網站的類似數據集,您如何得出$ a和$ b的值以適合該數據集?基本上是一些頻率列表,其分佈被假定爲冪律。

+0

注意,這不是什麼「對數正態分佈」是指...對數/數尺度 – 2011-01-05 23:09:43

+0

線是我真正的意思 – 2011-01-05 23:29:01

回答

6

您有以下型號:

y = exp(a + b.log(x)) 

這相當於:

log(y) = a + b.log(x) 

因此,如果你把你的數據集的日誌,結束了一個線性模型,所以你然後可以使用linear regression來確定ab的最佳擬合值。

但是,這聽起來對我來說毫無意義。誰能說一個給定的網絡站點使用這種關係來確定用戶等級?

+0

+1,他們不和Twitter從來沒有說過,他們這樣做。這只是近似你的排名的追隨者數量,而不是真正的'排名' – 2011-01-06 00:03:53

+0

@Kirk:的確,我最初誤解了OP的意思是「排名」。我想這個修辭問題會變成:誰會說某個網絡站點的分佈遵循這種關係? – 2011-01-06 00:08:08

+0

對不起,我誤解你的意思!我想這是假定分佈是對數正態分佈的,或者遵循「冪定律」,這可能是一個有點合理但完全不可靠的假設。 – 2011-01-06 01:01:46

1

您可以使用名爲「求解器」的Microsoft Excel加載項。它包含在Excel中,但並不總是默認安裝。在您的Excel版本中查找「加載項」和「求解器」並加載它。

安裝加載項後,請執行下列操作:

  1. 創建一個新的工作表。在列A中,您將放置每個人的編號(可選)

  2. 列B,追隨者的數量。

  3. 如果數據沒有排序,排序它使用列B

  4. 在列c將在排名(你知道,1,2,3等)

  5. 認沽值21小區D1和小區E1處的-1.1。這些是$ A和$ B的Twitter值。這些是我們的基本價值。他們可能會改變。

  6. 在細胞D2把像這樣的公式:= EXP($ E $ 1 + $ F $ 1 *日誌(B2))

  7. 複製下來D2式在數據的結尾。

  8. 在細胞E2處放置一個公式來比較實際排名與公式結果(即方差)。例如= sqrt(c2 * c2 + d2 * d2)。實際值和預測值越接近,該值將趨於0.

  9. 將單元格E2複製到數據的末尾。

  10. 在數據的底部,在E列,對差異求和。例如,假設您的數據有10,000個值。在單元格E10001中輸入= sum(e2:e10000)。

  11. 轉到菜單數據,然後查找「求解器」菜單的位置。該位置可能取決於您的Excel版本。使用「幫助」功能搜索「目標搜索」。

  12. 請按照說明(我現在要去)幫助使用Solver加載項。顯然,變化的單元格是D1和E1,目標是使E10001(方差之和)儘可能接近零。