0
我需要處理一個數據集來識別頻繁項目集。所以輸入欄必須是一個向量。原來列是由逗號分隔的項目的字符串,所以我做了以下:如何將Spark Dataframe中的列從矢量轉換爲集合?
functions.split(out_1['skills'], ',')
的問題是在skills
的,對於一些行,我已經重複值,並試圖當這是造成錯誤識別頻繁項目集。
我想在矢量轉換成一組去除重複的元素。事情是這樣的:
functions.to_set(functions.split(out_1['skills'], ','))
但我找不到一個函數來一列從矢量設置,即轉換,沒有to_set
功能。
我怎麼能做到我想要的東西,即移除載體複製的元素呢?