這個問題的最佳答案需要更多關於這個問題的信息 - 當日期接近(並且割得太多)時,人們是否更有可能購買機票?是否有廣告活動暫時影響銷售率?等等。
雖然我們無法獲得該信息,但我們假設第一個近似值是門票銷售率恆定。由於銷售基本上是隨機發生的,因此可能最好將其模擬爲Poisson process請注意,這並不能解釋許多人會購買多張票的事實,但我認爲這對結果沒有多大影響;也許真正的統計學家可能會在這裏發出響聲。另外:我將在這裏討論恆速泊松過程,但請注意,由於您提到的速率決定不是恆定的,因此您可以將可變速率泊松過程看作下一步。
要模擬泊松過程,您只需要平均門票銷售率。在您的示例數據中,每日銷售額[15,5,5,5,16],因此平均每天約9.2個門票。我們已經售出了46張門票,因此剩下254張門票。
從這裏可以很容易地問到:「給定9.2 tpd的價格,在23天內賣出小票的概率是多少,哪怕是低於 254票?」 (無視不可以賣出超過300張門票)。計算這種方法的方法是使用累積分佈函數(請參閱用於泊松分佈的CDF的here)。
平均而言,我們預計在23天后出售23 * 9.2 = 211.6張票,因此用概率分佈的語言,期望值爲211.6。 CDF告訴我們,「給定期望值λ,看到值爲< = x的概率是多少」。你可以自己做數學或要求SciPy的來爲你做它:
>>> import scipy.stats
>>> scipy.stats.poisson(9.2 * 23).cdf(254-1)
0.99747286634158705
所以這告訴我們:IF門票銷售可以準確地表示爲泊松過程和IF門票銷售的平均率真的是9.2 tpd,那麼23天后至少有一張門票可用的概率是99.7%。
現在我們假設有人想帶一組50個朋友,並想知道如果他們在25天內購買50張門票的可能性(改爲「如果我們預計平均銷售9.2 * 25門票,賣出的概率是多少(=(254-50))門票?「):
>>> scipy.stats.poisson(9.2 * 25).cdf(254-50)
0.044301801145630537
因此,有50票後25天可用的概率約爲4%
你給予了很多這樣的數據集(N門票,每個數據集d天),如果是這樣的? ,那麼你可以用這個機器學習或者遺傳算法來做這件事 – inspectorG4dget 2012-07-14 07:36:31
最初不是,因爲數據收集還沒有開始,但最終,我們假設在三個月的時間內可能有200-250個數據點,這取決於位置。實現機器學習算法是每個位置都不同,所以我不確定它是如何工作的,而且我們並沒有從很多數據點開始(實際上我們是從0開始的)。我目前最大的問題是以某種方式畫一個專業數據的可用性,而不僅僅是尋找回歸。 – zhuyxn 2012-07-14 08:25:35
不幸的是,你需要更多的領域知識才能夠從中獲得有用的答案。你有什麼理由相信它是非線性的?如果你確信它是非線性的,你會期望什麼樣的模型 - 二次的,指數的,對數的? – 2012-07-14 13:43:55