3
我試圖在兩個Spark RDD上進行連接。我有一個鏈接到類別的交易日誌。我已經格式化了我的事務RDD,並將類別ID作爲關鍵字。Spark加速指數緩慢
transactions_cat.take(3)
[(u'707', [u'86246', u'205', u'7', u'707', u'1078778070', u'12564', u'2012-03-02 00:00:00', u'12', u'OZ', u'1', u'7.59']),
(u'6319', [u'86246', u'205', u'63', u'6319', u'107654575', u'17876', u'2012-03-02 00:00:00', u'64', u'OZ', u'1', u'1.59']),
(u'9753', [u'86246', u'205', u'97', u'9753', u'1022027929', u'0', u'2012-03-02 00:00:00', u'1', u'CT', u'1', u'5.99'])]
categories.take(3)
[(u'2202', 0), (u'3203', 0), (u'1726', 0)]
事務日誌是大約20 GB(350百萬的行)。 類別列表小於1KB。
當我運行
transactions_cat.join(categories).count()
星火開始很慢。我有一個有643個任務的階段。前10項任務約需1分鐘。然後每個任務變得越來越慢(約60分鐘左右)。我不確定有什麼問題。
請檢查這些截圖以獲得更好的主意。
我正在星火1.1.0與使用Python外殼50 GB的總內存4名工人。 計算交易RDD只是相當快(30分鐘)