我正在閱讀頻繁模式挖掘算法,並提出以下問題。讓一家公司擁有10,000種不同的產品,並有1,000,000,000個交易,每個交易包含10種不同的產品。如果對於每個籃子一個產品是統一選擇的,那麼在1,000,000,000個交易中選擇一個規模爲10的固定籃子1000次的概率是多少?籃子平均頻繁出現的概率是多少?
這是自我學習,問題是在幻燈片9 here
我正在閱讀頻繁模式挖掘算法,並提出以下問題。讓一家公司擁有10,000種不同的產品,並有1,000,000,000個交易,每個交易包含10種不同的產品。如果對於每個籃子一個產品是統一選擇的,那麼在1,000,000,000個交易中選擇一個規模爲10的固定籃子1000次的概率是多少?籃子平均頻繁出現的概率是多少?
這是自我學習,問題是在幻燈片9 here
說我不是在概率論方面的專家,但我認爲,機會幾乎是0。要知道爲什麼,想象你有一個盒子與所有可能的籃子。令B
爲框的基數,因此從框中抽取一個特定籃子的概率爲p = 1/B
,大約爲p = 10^(-40)
。想象一下你從這個盒子裏取出N
次更換。那麼你會期望這個特定的籃子將被繪製m = N/B times
。這是實驗的預期頻率。
此採樣過程的標準偏差(N
以成功概率p
提取)爲σ = sqrt(N*p*(1-p))
。如果你用N = 10^9
,p = 10^(-40)
做數學,你會發現σ = sqrt(10^(-31))
。
現在假設實驗的觀察頻率是f = 10^3
。由於預期頻率是m = N/B = 10^9/10^40 = 10^(-31)
,它遵循該實驗的z-score
是
z = (f-m)/σ = sqrt(10)*10^17
觀察特定籃的至少f
實例的機會是通過正態近似作爲區域標準正態曲線下之間給出z
和無限。這個區域幾乎爲零。