power-law

    0熱度

    1回答

    我有一個數據框,其中x-y值表示值及其計數,例如, (1,1000),(2,100),(3,10)等。我想用MLE來擬合這個分佈的冪定律。 我可以使用power.law.fit或poweRlaw庫,但看起來這些庫取得了數據的特定樣本,而不是表示值和它們的計數的x-y值。 有沒有其他圖書館可以完成這項工作?謝謝!

    0熱度

    1回答

    我想出了一個問題,在我的數據上擬合冪律曲線。我有兩個數據集:bins1和曲線擬合使用numpy.linalg.lstsq bins2 bins1作用罰款(我然後使用np.exp(coefs[0])*x**coefs[1]得到冪律方程) 在另一方面,bins2是怪怪的並顯示出一個糟糕的R平方 這兩個數據有不同的方程比excel顯示我(和更糟糕的R平方)。 這裏是代碼(和數據): import num

    1熱度

    1回答

    我生成使用包rplcon()功能poweRlaw data <- rplcon(1000,10,2) 現在,我想知道哪些已知分佈擬合數據的一些隨機變量最好。 Lognorm? EXP?伽瑪?冪律?指數截斷的冪律? 於是我就用功能fitdist()封裝fitdistrplus: fit.lnormdl <- fitdist(data,"lnorm") fit.gammadl <- fitdist(

    2熱度

    1回答

    我裝配冪定律到45個百萬行矢量,爲此,我使用冪律包中R:https://arxiv.org/pdf/1407.3492.pdf 該過程的計算量最大的部分是估計下界,它與完成的estimate_xmin()功能。這需要很多時間。 的代碼是這樣的(w是載體和c_pl來自「連續冪律」): c_pl <- conpl$new(w) est <- estimate_xmin(c_pl) c_pl$set

    2熱度

    1回答

    我想用R來測試網絡的度數分佈是否像無冪性的冪律一樣。儘管如此,我讀過不同的人以許多不同的方式來做這件事,一個令人困惑的地方是模型中應該使用的輸入。 例如,我讀過Barabasi,建議將冪律適合度爲(see Advanced Topic 3.B of chapter 4, figure 4.22的'補充累積分佈'。但是,我見過的人適合冪律的度(隨igraph::degree(g)獲得),而我也看到其

    1熱度

    1回答

    我有一個數據樣本,樣本大小約爲500,000。目前我正在試圖以適應冪律分佈的樣本中,R.使用poweRlaw包 所以這是我的代碼實現這一目的: pl_rg <- conpl$new(a) estimate_xmin(pl_rg, xmax = 100) 但是,問題來了,當我嘗試運行x<-estimate_xmin(pl_rg,xmax = 100)的代碼。我發現這個代碼非常耗時。現在我已經運

    2熱度

    2回答

    我目前正試圖找到一種方法來計算適用於MLE截斷分佈的冪定律。分佈如下所示: 正如你所看到的,我能夠適應整個分佈(冪律配合),也下限(EXP-FIT)分開。我無法弄清楚的是如何擬合分佈的上限(f.e.8 8 < x < 100)。 有沒有辦法用poweRlaw包或任何其他R包做到這一點?我所希望的是一些看起來像這樣(注:這只是一個隨機分佈): 代碼(如果需要): #Power-Law librar

    1熱度

    1回答

    我的數據非常類似於power law分佈。使用Python,我要通過在形式求解兩個方程來近似數據: y是y軸數據。在Python中,它將是data[i]。 x將是i + 1。這表明我們在第一次數據索引,並在「隨機」第二屆一個別的地方數據得到兩個方程有兩個未知變量: 的問題歸結爲解決剛 由於數學的簡化。我不知道如何使用類似numpy.linalg.solve這樣的庫來解決這樣的等式。如何使用Pyth

    1熱度

    1回答

    有指數截斷功法下面的文章中的公式: 岡薩雷斯,M. C.,伊達爾戈,C. A.,& Barabasi,A. L.(2008)。瞭解個人移動模式。 Nature,453(7196),779-782。 這樣的: 這是一個指數截斷的冪律。有三個參數需要估計:rg0,beta和K.現在我們有幾個用戶的回轉半徑(rg),並將其上傳到Github上:radius of gyrations.txt 以下代碼可用

    0熱度

    1回答

    我有一個有5列100萬條記錄的數據框。 unique_index,name,company_name,city_id,state_id 列,company_name,有100k個獨特記錄。這遵循權力法。 Top 5000 company_names覆蓋了70%的記錄。 我想取樣品的人數相等這有助於數據的頂部5000,從剩餘的一組公司。我試過pd.qcut(df['company_name'],