1
比方說,我有這個結構的數據幀:數據幀上的FPGrowth?
time| asset | parameter
----|-------|----------
T1 | A1 | P1
T1 | A1 | P2
T1 | A1 | P3
T1 | A2 | P1
T1 | A2 | P2
T1 | A2 | P3
T2 | A1 | P1
....
等等
我想這個數據幀,其中對應於同樣的參數全部的FPGrowth
API(作爲spark.mllib
部分)時間戳被認爲是一個事務。我如何去做這件事?
documentation中給出的示例只是簡單地讀取正在讀取的文件,每行對應於不同的事務。
我是Spark新手,歡迎任何形式的幫助! (帶斯卡拉的Spark 1.6.2版)
沒關係,如果你的數據框不是那麼大。我的數據幀可以有數百萬或更多的數據點。在這樣的情況下,它將是非常耗時的嗎? – aswa09
如果數據被排序,這是O(n) - 不是太差。 FP-Growth需要交易中的數據,因此您最終必須支付此運行時成本。 –