數據幀上的FPGrowth？

比方說，我有這個結構的數據幀：數據幀上的FPGrowth？

time| asset | parameter 
----|-------|---------- 
T1 | A1 | P1 
T1 | A1 | P2 
T1 | A1 | P3 
T1 | A2 | P1 
T1 | A2 | P2 
T1 | A2 | P3 
T2 | A1 | P1 
....

等等

我想這個數據幀，其中對應於同樣的參數全部的FPGrowth API（作爲spark.mllib部分）時間戳被認爲是一個事務。我如何去做這件事？

documentation中給出的示例只是簡單地讀取正在讀取的文件，每行對應於不同的事務。

我是Spark新手，歡迎任何形式的幫助！（帶斯卡拉的Spark 1.6.2版）

來源

2016-11-23 aswa09

旋轉您的數據，以便每個事務都有一行。

然後運行FPgrowth。

來源

2016-11-23 22:23:31

沒關係，如果你的數據框不是那麼大。我的數據幀可以有數百萬或更多的數據點。在這樣的情況下，它將是非常耗時的嗎？ – aswa09

如果數據被排序，這是O（n） - 不是太差。 FP-Growth需要交易中的數據，因此您最終必須支付此運行時成本。 –

數據幀上的FPGrowth？

回答

相關問題