因此,我需要使用歐幾里得距離或任何東西,找到pyspark DF中給定行的最近鄰居。我有超過20列,超過千行和所有值的數據是數字。使用歐幾里得距離或類似的pyspark中最近的鄰居
我想在pyspark中過度採樣一些數據,因爲mllib沒有內置的支持,我決定使用smote自己創建它。
我的方法直到現在一直使用stringtoindex將所有分類距離轉換爲索引,以便我可以找到歐幾里德距離和鄰居,從而執行smote。
我是相當新的火花和毫升。任何幫助,將不勝感激。
因此,我需要使用歐幾里得距離或任何東西,找到pyspark DF中給定行的最近鄰居。我有超過20列,超過千行和所有值的數據是數字。使用歐幾里得距離或類似的pyspark中最近的鄰居
我想在pyspark中過度採樣一些數據,因爲mllib沒有內置的支持,我決定使用smote自己創建它。
我的方法直到現在一直使用stringtoindex將所有分類距離轉換爲索引,以便我可以找到歐幾里德距離和鄰居,從而執行smote。
我是相當新的火花和毫升。任何幫助,將不勝感激。
沒試過,但伊夫發現這個腳本:https://github.com/jakac/spark-python-knn/blob/master/python/gaussalgo/knn/knn.py
如果你的數據是數據框,你應該首先合併的列與vectorASsembler https://spark.apache.org/docs/latest/ml-features.html#vectorassembler載體,然後用df.select("id", "yourColumnVector")
我提供的庫似乎工作只適用於rdd,因此您應該使用df.rdd
將您的數據幀轉換爲RDD您的* specific *問題是什麼?請告訴我們你到目前爲止所嘗試過的。堆棧溢出不是一種代碼編寫服務,但如果你至少試圖自己解決問題,人們願意幫助你。請閱讀[如何創建最小,完整和可驗證的示例](http://stackoverflow.com/help/mcve)和[我如何提出一個好問題?](http://stackoverflow.com/help/如何對問)。然後,更新並*改進您的問題*。 –
做了一些編輯,謝謝你的建議。 –