2014-01-09 116 views
2

背景頻繁項目集挖掘的大多數示例都具有獨特項目的交易。例如{1,2}, {1,3}, {2,3,5,6}, {6}。我很想知道交易中是否有重複會影響結果。例如{1,2,1}, {2,2,3}, {4,3}, {4,1,2,4,2,6}計算交易中重複項目的頻繁項目集

問題使用先驗算法,這將是在交易數據庫{1,2,1}, {2,2,3}, {4,3}, {4,1,2,4,2,6} 1項的支持?我認爲結果是:

{1}: 2 
{2}: 3 
{3}: 2 
{4}: 2 
{6}: 1 

回答

1

「默認」FIM算法不允許重複。

但是你可以平凡編碼重複的附加項目,即

{ Beer, Beer } -> { Beer, Beer_2 } 

,然後照常進行。然後你會得到無聊的相關規則,如

{ Beer_2 } -> { Beer } 

即買了第二個啤酒的人也買了第一個啤酒。

這些瑣碎從結果修剪,但:從來不考慮移動x到右側,當x_2是在左邊,等

+0

感謝您的回答。允許重複算法的效果是什麼?是否會導致不正確的頻繁模式被報告? –

+0

首先定義「不正確」。 –

1

頻繁項集挖掘的原來的問題沒有數量,這是一個項目在交易中只能出現零次或一次。因此,你提到的情況是未定義的。

如果你想允許重複,你可以看看項目集挖掘問題的變化。

在「高效用品項目挖掘」中,每個項目可以出現不止一次,每個項目也可以具有權重,如單位利潤。高效率項目集挖掘的目標是找到具有高效用(例如高利潤)的項目集。如果你很好奇,你可以看看這篇論文,看看他們如何根據項目在交易中出現的次數和重量來定義效用。高效能開採的問題比複製問題更爲普遍。你可以使用高效率項目挖掘算法,如FHM和HUI-Miner,如果你給每個項目權重1,它可以處理重複的問題。如果您好奇,可以在Java SPMF data mining library中獲得HUI-Miner的Java實現。

另一個變化是「加權項集挖掘」,其中項目有權重但不能出現一次以上。

如果你看一下這些變化和其他人,我認爲有人肯定已經解決了這個問題。