2016-03-02 24 views
0

我有一個數據集(CSV文件)使用Apriori算法找到頻繁項目集。如何查找頻繁的項目集而不考慮屬性名稱?

col1, col2, col3 
bread, butter,? 
coke, bread, butter 

我爲此使用WEKA。在輸出中是按以下格式:

... 
Large Itemsets L(2): 
col1=bread col2= butter 1 
col1=coke col2= bread 1 
col1=coke col3= butter 1 
col2= bread col3= butter 1 
... 

但我是想輸出是:

bread, butter 2 

基本上,上面的輸出是獨立的,他們屬於col的。我怎樣才能達到這種輸出?

回答

0

以不同的方式格式化數據。

Weka預計是相同的產品,並且值爲t/f(對於true,false)。然後你可以得到類似牛奶的itemset = t - > butter = t。

請參閱Weka附帶的.arff示例。

我想我看到了一個ELKI示例使用您的輸入格式。

相關問題