2013-05-20 29 views
0

R - 問題:找到最佳數量的非均勻箱來顯示一系列數據點。找到非均勻箱的最佳數量

我有一堆數據點(讓我們假設不同手機的不同價格)。我需要將這些手機歸類爲某些類別(基於價格)。垃圾箱尺寸(在本例中是指價格範圍)不需要統一(低價格類別中可能會有很多移動設備,而長尾類別中可能會有很多移動設備)。

是否有任何有效的算法來找到需要的箱子的最佳數量和數據點的數量(在這種情況下是手機),它們將進入每個類別。

+0

這可能會有所幫助:http://stats.stackexchange.com/questions/55777/histogram-with-uniform-vs-non-uniform-b​​ins,以及這個http://stats.stackexchange.com/questions/ 798 /計算最佳數目的bin-in-a-histogram-for-n-where-n-ranges-from -30 – adibender

+0

取決於你想要對數據做什麼。只需繪製直方圖?生成購買算法以最大化銷售利潤?等等。 –

+1

define * optimal *。 – flodel

回答

0

這不是一個標準公式,但想發佈,因爲它似乎與我測試的數據集很好地工作。

  1. 查找所有手機的平均價格。

    例:5個移動臺和價格10,20,40,80,200

    平均是五分之三百五十零從平均價格= 70

  2. 減去最低價格:70 - 10 = 60 - >名從最大價格它N1

  3. 減去平均價格:200 - 70 = 130 - >它命名爲N2

  4. 查找比率N2/N1:六十零分之一百三十零:大約2

    這表示在較高的範圍內,每個1個垃圾箱在較低的價格範圍內最好有兩個垃圾箱。

  5. 因此,例如採取下面70.範圍0 2米倉 - 35(2個移動臺),36 - 70(1個移動)

    1倉以上70:範圍71 - 200(2個手機)

正如您所看到的,箱數和箱尺寸是相當優化的。