背景頻繁項目集挖掘的大多數示例都具有獨特項目的交易。例如{1,2}, {1,3}, {2,3,5,6}, {6}
。我很想知道交易中是否有重複會影響結果。例如{1,2,1}, {2,2,3}, {4,3}, {4,1,2,4,2,6}
計算交易中重複項目的頻繁項目集
問題使用先驗算法,這將是在交易數據庫{1,2,1}, {2,2,3}, {4,3}, {4,1,2,4,2,6}
1項的支持?我認爲結果是:
{1}: 2
{2}: 3
{3}: 2
{4}: 2
{6}: 1
背景頻繁項目集挖掘的大多數示例都具有獨特項目的交易。例如{1,2}, {1,3}, {2,3,5,6}, {6}
。我很想知道交易中是否有重複會影響結果。例如{1,2,1}, {2,2,3}, {4,3}, {4,1,2,4,2,6}
計算交易中重複項目的頻繁項目集
問題使用先驗算法,這將是在交易數據庫{1,2,1}, {2,2,3}, {4,3}, {4,1,2,4,2,6}
1項的支持?我認爲結果是:
{1}: 2
{2}: 3
{3}: 2
{4}: 2
{6}: 1
「默認」FIM算法不允許重複。
但是你可以平凡編碼重複的附加項目,即
{ Beer, Beer } -> { Beer, Beer_2 }
,然後照常進行。然後你會得到無聊的相關規則,如
{ Beer_2 } -> { Beer }
即買了第二個啤酒的人也買了第一個啤酒。
這些瑣碎從結果修剪,但:從來不考慮移動x
到右側,當x_2
是在左邊,等
頻繁項集挖掘的原來的問題沒有數量,這是一個項目在交易中只能出現零次或一次。因此,你提到的情況是未定義的。
如果你想允許重複,你可以看看項目集挖掘問題的變化。
在「高效用品項目挖掘」中,每個項目可以出現不止一次,每個項目也可以具有權重,如單位利潤。高效率項目集挖掘的目標是找到具有高效用(例如高利潤)的項目集。如果你很好奇,你可以看看這篇論文,看看他們如何根據項目在交易中出現的次數和重量來定義效用。高效能開採的問題比複製問題更爲普遍。你可以使用高效率項目挖掘算法,如FHM和HUI-Miner,如果你給每個項目權重1,它可以處理重複的問題。如果您好奇,可以在Java SPMF data mining library中獲得HUI-Miner的Java實現。
另一個變化是「加權項集挖掘」,其中項目有權重但不能出現一次以上。
如果你看一下這些變化和其他人,我認爲有人肯定已經解決了這個問題。
感謝您的回答。允許重複算法的效果是什麼?是否會導致不正確的頻繁模式被報告? –
首先定義「不正確」。 –