1
我需要爲關聯規則挖掘生成合成數據集,以比較我的算法與現有算法的性能。我下載了IBM Quest數據生成器,但不知道如何生成與論文中使用的參數相同的數據集。例如,如何生成T40I10D100K.dat T40I10D1000K.dat,T10I4D100K.dat T25I10D10k.data數據集? T,I和D的含義是什麼以及如何在使用發生器時設置這些參數?用於交易生成的IBM Quest數據生成器參數
幫助輸出以下內容。
[email protected]:~$ ./gen lit -help
Command Line Options:
-ntrans number_of_transactions (in 1000's) (default: 1000)
-tlen avg_items_per_transaction (default: 10)
-nitems number_of_different_items (in '000s) (default: 100000)
-npats number_of_patterns (default: 10000)
-patlen avg_length_of_maximal_pattern (default: 4)
-corr correlation_between_patterns (default: 0.25)
-conf avg_confidence_in_a_rule (default: 0.75)
-fname <filename> (write to filename.data and filename.pat)
-ascii (default: False)
-randseed # (reset seed used generate to x-acts; must be negative)
-version (to print out version info)