2015-06-29 72 views
1

我想從arules包運行apriori,並遇到內存問題。到目前爲止,我可以讀取數據並將其分成正確的格式以進行購物籃分析,但是當我嘗試將數據轉換爲交易類型時,由於大小(約800,000行),我得到一個錯誤。爲apriori處理大數據

是否有任何軟件包可以幫助我處理這些數據的大小?

as((split(first2$Product,f = first2$Transaction_Id)),"transactions") 

我一直堅持這個約一週現在,所以任何意見將不勝感激。

回答

0

這取決於您有多少項目(列)以及數據稀疏程度如何(每項交易項目)。 arule中的apriori實現要求所有事務都駐留在主內存中。如果您可以讀取數據,但作爲(數據,「事務」)失敗,那麼您可以嘗試從Matrix包直接創建一個稀疏ngCMatrix,並使用它創建itemMatrix(基本上是事務)。

R> class? ngCMatrix 
R> class? itemMatrix 
R> class? transactions 

不幸的是,這是有點痛苦。