1

比方說,我有這個結構的數據幀:數據幀上的FPGrowth?

time| asset | parameter 
----|-------|---------- 
T1 | A1 | P1 
T1 | A1 | P2 
T1 | A1 | P3 
T1 | A2 | P1 
T1 | A2 | P2 
T1 | A2 | P3 
T2 | A1 | P1 
.... 

等等

我想這個數據幀,其中對應於同樣的參數全部的FPGrowth API(作爲spark.mllib部分)時間戳被認爲是一個事務。我如何去做這件事?

documentation中給出的示例只是簡單地讀取正在讀取的文件,每行對應於不同的事務。

我是Spark新手,歡迎任何形式的幫助! (帶斯卡拉的Spark 1.6.2版)

回答

0

旋轉您的數據,以便每個事務都有一行。

然後運行FPgrowth。

+0

沒關係,如果你的數據框不是那麼大。我的數據幀可以有數百萬或更多的數據點。在這樣的情況下,它將是非常耗時的嗎? – aswa09

+0

如果數據被排序,這是O(n) - 不是太差。 FP-Growth需要交易中的數據,因此您最終必須支付此運行時成本。 –