2016-01-11 70 views
1

我開始使用arulesSequences,目的是對我擁有的某些數據執行頻繁序列挖掘。用於商店A中的數據看起來像下面:Apriori,arulesSequences,in R:它是否支持「籃子」的順序(單一購物旅行中的順序無關緊要)?

CUSTOMER_ID SEQ_NUM尺寸bought_items

1 17399 1 2 {100100}

2 17399 2 1 {800}

3 17399 3 2 {900900 }

4 17399 4 1 {405}

5 17399 5 4 {200505200505}

這意味着什麼這個客戶#17399多次與這家商店A一起購物。在他/她第一次購物時,此人購買了物品代碼爲100和100(2件物品)的物品。在他/她的第二次購物行程中,該顧客僅購買了物品800.以此類推。

現在我想用cSPADE這個客戶,其中爲了不事關一個「籃子」裏,但整個購物之旅事情做。所以,最終我的客戶17399的記錄是:

CUSTOMER_ID bought_items

17399 {(100,100),800(900900),405(200505200505)}

其中{}包含完整的序列和()代表每次購物之旅。

我一般理解,這是一個possibility.However,我還沒有看到任何實例(搜索了幾個小時)或筆記明確地談論arulesSequences支持這一點。有什麼想法嗎?將不勝感激的幫助。

謝謝你的時間。

回答

1

幾個小時的學習後,我加入,我找到了答案,如果它是有用的人。

答案是肯定的 - 包確實有跨籃重複項目的支持。事實上這個網站上的例子:https://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Sequence_Mining/SPADE顯示了這種情況。雖然在這個例子中沒有兩個序列號(屬於同一事務)是相同的,但是有重疊的元素。即使它們是相同的(我使用示例輸入.txt),使用read_basket和cSPADE時也沒有錯誤,這正是我試圖應用的。

很多例子在那裏在網絡上是先驗,爲此,該重複一個筐內的項目的是不允許的。這造成了很多混亂。上面粘貼的例子是一個很好的例子,它顯示了使用cSPADE。希望這有助於人們在那裏。