我寫了數據挖掘apriori算法,它在小型測試數據上運行良好,但我有問題在較大的數據集上運行。數據挖掘:Apriori問題。最小支持
我想要生成經常一起購買的物品的規則。
我的小測試數據是5筆交易和10個產品。
我的大測試數據是1100萬筆交易和2700多種產品。
問題:最小支持和過濾非頻繁項目。 讓我們想象我們對頻率爲60%或更多的物品感興趣。 frequency = 0.60;
當我計算Min-support
爲一個小數據集與60%頻率算法將刪除所有購買少於3倍的項目。 Min-support = numberOfTransactions * frequency;
但是,當我試圖爲大數據集做同樣的事情時,算法會在第一次迭代後過濾幾乎所有的項目集,只有幾件能夠滿足這種平面的項目。
所以我開始降低這個飛機的更低和更低的速度,運行算法多次。但是甚至沒有5%給出期望的結果。我不得不降低我的頻率百分比,直到0.0005,使它至少有50%的項目涉及第一次迭代。
您對目前的情況有什麼看法?可能是數據問題,因爲它是人爲產生的? (微軟冒險工程版) 或者它是我的代碼或min支持計算問題?
也許你可以提供任何其他解決方案或更好的方式來做到這一點?
謝謝!