2013-01-06 49 views
6

我想了解先驗(籃)算法的基本原理在數據挖掘應用,頻繁集和關聯規則 - Apriori算法

這是最好的,我解釋我跟一個例子具有併發症:

這裏是一個事務性數據集:

t1: Milk, Chicken, Beer 
t2: Chicken, Cheese 
t3: Cheese, Boots 
t4: Cheese, Chicken, Beer 
t5: Chicken, Beer, Clothes, Cheese, Milk 
t6: Clothes, Beer, Milk 
t7: Beer, Milk, Clothes

最小支持度爲上面是0.5或50%。

從上面的考慮,我交易數量顯然是7,意爲一個項集是「頻繁」,它必須有4/7計數。因此,這是我的頻繁項集1:

F1:

Milk = 4 
Chicken = 4 
Beer = 5 
Cheese = 4

然後我創建了候選人第二細化(C2),並把範圍縮小到:

F2:

{Milk, Beer} = 4

這是我困惑的地方,如果我被要求顯示全部頻繁項目組我是否全部寫下F1F2或者只是F2F1對我來說不是「套」。

我接着問到創建我剛纔定義的頻繁項集關聯規則,並計算出它們的「自信」的數字,我得到這個:

Milk -> Beer = 100% confidence 
Beer -> Milk = 80% confidence

這似乎是多餘的把F1的項目集在這裏因爲他們都會有100%的信心,不管實際上什麼都不「聯合」,這就是我現在質疑F1是否確實「頻繁」的原因?

+1

空集也是一個集合。並且有一組有1個元素。它們可以是頻繁項目集,而不會提供有用的*關聯規則*。 –

回答

2

大小爲1的商品集在其支持適合的情況下被認爲是頻繁的。 在這裏你必須考慮最低門檻。就像你的最小閾值在你的例子中是那麼F1將不被考慮。但如果最低門檻是那麼你必須。

你可以看看herehere瞭解更多的想法和例子。

希望我幫忙。

+0

在這種情況下,未指定最小閾值,是否認爲'F1'項目頻繁?他們是否應該在「關聯規則」中有所體現,甚至認爲他們除了自己以外別無其他? –

+1

不幸的是。但是,沒有最低門檻,沒有使用先驗。因爲這會導致錯誤的規則。最低門檻總是由數據分析師決定。 –

0

如果最小支持閾值(minsup)是4/7,那麼如果出現在7個以上的4個事務中,那麼您應該在頻繁項目集中包含單個項目。因此,在你的榜樣,你應該包括他們:

牛奶= 4 雞= 4 啤酒= 5 奶酪= 4

對於關聯規則,它們具有形式X ==> Y其中X和Y是不相交的項目集,並且通常假定X和Y不是空集(這是Apriori所假設的)。因此,您至少需要兩個項目才能生成關聯規則。