用於交易生成的IBM Quest數據生成器參數

我需要爲關聯規則挖掘生成合成數據集，以比較我的算法與現有算法的性能。我下載了IBM Quest數據生成器，但不知道如何生成與論文中使用的參數相同的數據集。例如，如何生成T40I10D100K.dat T40I10D1000K.dat，T10I4D100K.dat T25I10D10k.data數據集？ T，I和D的含義是什麼以及如何在使用發生器時設置這些參數？用於交易生成的IBM Quest數據生成器參數

幫助輸出以下內容。

[email protected]:~$ ./gen lit -help 
Command Line Options: 
-ntrans number_of_transactions (in 1000's) (default: 1000) 
    -tlen avg_items_per_transaction (default: 10) 
    -nitems number_of_different_items (in '000s) (default: 100000) 
    -npats number_of_patterns (default: 10000) 
    -patlen avg_length_of_maximal_pattern (default: 4) 
    -corr correlation_between_patterns (default: 0.25) 
    -conf avg_confidence_in_a_rule (default: 0.75) 
    -fname <filename> (write to filename.data and filename.pat) 
    -ascii (default: False) 

    -randseed # (reset seed used generate to x-acts; must be negative) 
    -version (to print out version info)

來源

2012-10-17 Ahmedov

你可以得到IBM發電機在這裏：

http://forum.ai-directory.com/read.php?5,33

這裏是字母的解釋：

d：數據集中 Ç序列號：平均數每個序列的項目集數 T：每個項目集的平均項目數量 S：潛在頻繁序列中的項目集的平均數量。 I：潛在頻繁序列中項目集的平均大小 N：數據集中不同項目的數量

來源

2013-05-06 22:24:13 Phil

用於交易生成的IBM Quest數據生成器參數

回答

相關問題