頻繁集和關聯規則 - Apriori算法

我想了解先驗（籃）算法的基本原理在數據挖掘應用，頻繁集和關聯規則 - Apriori算法

這是最好的，我解釋我跟一個例子具有併發症：

這裏是一個事務性數據集：

t1: Milk, Chicken, Beer 
t2: Chicken, Cheese 
t3: Cheese, Boots 
t4: Cheese, Chicken, Beer 
t5: Chicken, Beer, Clothes, Cheese, Milk 
t6: Clothes, Beer, Milk 
t7: Beer, Milk, Clothes

的最小支持度爲上面是0.5或50％。

從上面的考慮，我交易數量顯然是7，意爲一個項集是「頻繁」，它必須有4/7計數。因此，這是我的頻繁項集1：

F1：

Milk = 4 
Chicken = 4 
Beer = 5 
Cheese = 4

然後我創建了候選人第二細化（C2），並把範圍縮小到：

F2：

{Milk, Beer} = 4

這是我困惑的地方，如果我被要求顯示全部頻繁項目組我是否全部寫下F1和F2或者只是F2？ F1對我來說不是「套」。

我接着問到創建我剛纔定義的頻繁項集關聯規則，並計算出它們的「自信」的數字，我得到這個：

Milk -> Beer = 100% confidence 
Beer -> Milk = 80% confidence

這似乎是多餘的把F1的項目集在這裏因爲他們都會有100％的信心，不管實際上什麼都不「聯合」，這就是我現在質疑F1是否確實「頻繁」的原因？

來源

2013-01-06 Myles Gray

空集也是一個集合。並且有一組有1個元素。它們可以是頻繁項目集，而不會提供有用的*關聯規則*。 –

大小爲1的商品集在其支持適合的情況下被認爲是頻繁的。但在這裏你必須考慮最低門檻。就像你的最小閾值在你的例子中是那麼F1將不被考慮。但如果最低門檻是那麼你必須。

你可以看看here和here瞭解更多的想法和例子。

希望我幫忙。

來源

2013-01-06 16:47:22

在這種情況下，未指定最小閾值，是否認爲'F1'項目頻繁？他們是否應該在「關聯規則」中有所體現，甚至認爲他們除了自己以外別無其他？ –

不幸的是。但是，沒有最低門檻，沒有使用先驗。因爲這會導致錯誤的規則。最低門檻總是由數據分析師決定。 –

如果最小支持閾值（minsup）是4/7，那麼如果出現在7個以上的4個事務中，那麼您應該在頻繁項目集中包含單個項目。因此，在你的榜樣，你應該包括他們：

牛奶= 4 雞= 4 啤酒= 5 奶酪= 4

對於關聯規則，它們具有形式X ==> Y其中X和Y是不相交的項目集，並且通常假定X和Y不是空集（這是Apriori所假設的）。因此，您至少需要兩個項目才能生成關聯規則。

來源

2013-05-04 22:33:10 Phil

頻繁集和關聯規則 - Apriori算法

回答

相關問題