我想了解先驗(籃)算法的基本原理在數據挖掘應用,頻繁集和關聯規則 - Apriori算法
這是最好的,我解釋我跟一個例子具有併發症:
這裏是一個事務性數據集:
t1: Milk, Chicken, Beer
t2: Chicken, Cheese
t3: Cheese, Boots
t4: Cheese, Chicken, Beer
t5: Chicken, Beer, Clothes, Cheese, Milk
t6: Clothes, Beer, Milk
t7: Beer, Milk, Clothes
的最小支持度爲上面是0.5或50%。
從上面的考慮,我交易數量顯然是7,意爲一個項集是「頻繁」,它必須有4/7計數。因此,這是我的頻繁項集1:
F1:
Milk = 4
Chicken = 4
Beer = 5
Cheese = 4
然後我創建了候選人第二細化(C2),並把範圍縮小到:
F2:
{Milk, Beer} = 4
這是我困惑的地方,如果我被要求顯示全部頻繁項目組我是否全部寫下F1
和F2
或者只是F2
? F1
對我來說不是「套」。
我接着問到創建我剛纔定義的頻繁項集關聯規則,並計算出它們的「自信」的數字,我得到這個:
Milk -> Beer = 100% confidence
Beer -> Milk = 80% confidence
這似乎是多餘的把F1
的項目集在這裏因爲他們都會有100%的信心,不管實際上什麼都不「聯合」,這就是我現在質疑F1
是否確實「頻繁」的原因?
空集也是一個集合。並且有一組有1個元素。它們可以是頻繁項目集,而不會提供有用的*關聯規則*。 –