2013-05-14 254 views
2

我想用Apriori來對交易數據進行親和度分析。我有一張帶有訂單和他們信息列表的表格。我主要是需要用OrderID和產品ID屬性,其是在以下格式Weka Apriori算法

訂單ID的ProductID
1的
1乙
圖1C
2甲
2 C
3甲

Weka要求您爲每個產品ID創建一個名義屬性,並使用如下所示的true或false值指定項目是否存在於訂單中:

1,TRUE,TRUE,TRUE
2,TRUE,FALSE,TRUE
3,TRUE,FALSE,FALSE

我的數據集包含約10K記錄... 3K左右不同的產品。任何人都可以建議一種方法來創建這種格式的數據集? (除了手動耗時的方式...)

回答

0

如何編寫一個腳本來轉換它?

一個好的腳本語言(如Python)應該少於10行。

或者您可以根據需要查看旋轉關係的選項。

無論哪種方式,這是一個直接的編程任務,所以我沒有看到你的問題在這裏。

+0

嗯,我是一個剛剛開始嘗試這些東西的學生,所以它看起來不像是一個「簡單的編程任務」可能還有其他很多其他人,因爲我看起來非常類似的未解答的問題。那謝謝啦。 – user2275504 2013-05-16 09:09:03

+0

是的,這裏有很多題外話題。該網站是編程問題,你顯然還沒有嘗試用自己的簡單代碼解決這個問題。 – 2013-05-16 17:00:08

0

您顯然需要轉換您的數據。最簡單的方法:編寫一個軟件,以您最熟悉的編程語言讀取文件,然後以適當的格式寫入文件。由於它是文本文件,所以不應該太複雜。順便說一句,如果你想在Weka中使用更多的模式挖掘和關聯挖掘算法,那麼你可以檢查我的軟件SPMF(http://www.philippe-fournier-viger.com/spmf/),它也是Java的,也可以讀取ARFF文件,並提供大約50個算法專業從事模式挖掘(先驗FPGrowth,和其他許多人。

0

你的數據是正確的格式,用於開發使用ARULES包R中實現(先驗函數)。你可能會考慮檢查出來,尤其如果你」無法進入腳本編碼