使用歐幾里得距離或類似的pyspark中最近的鄰居

因此，我需要使用歐幾里得距離或任何東西，找到pyspark DF中給定行的最近鄰居。我有超過20列，超過千行和所有值的數據是數字。使用歐幾里得距離或類似的pyspark中最近的鄰居

我想在pyspark中過度採樣一些數據，因爲mllib沒有內置的支持，我決定使用smote自己創建它。

我的方法直到現在一直使用stringtoindex將所有分類距離轉換爲索引，以便我可以找到歐幾里德距離和鄰居，從而執行smote。

我是相當新的火花和毫升。任何幫助，將不勝感激。

2016-09-15 Taranjeet Singh

將您的數據幀轉換爲RDD您的* specific *問題是什麼？請告訴我們你到目前爲止所嘗試過的。堆棧溢出不是一種代碼編寫服務，但如果你至少試圖自己解決問題，人們願意幫助你。請閱讀[如何創建最小，完整和可驗證的示例]（http://stackoverflow.com/help/mcve）和[我如何提出一個好問題？]（http://stackoverflow.com/help/如何對問）。然後，更新並*改進您的問題*。 –

做了一些編輯，謝謝你的建議。 –

沒試過，但伊夫發現這個腳本：https://github.com/jakac/spark-python-knn/blob/master/python/gaussalgo/knn/knn.py

如果你的數據是數據框，你應該首先合併的列與vectorASsembler https://spark.apache.org/docs/latest/ml-features.html#vectorassembler載體，然後用df.select("id", "yourColumnVector")

我提供的庫似乎工作只適用於rdd，因此您應該使用df.rdd

來源

2016-09-16 11:28:16 GwydionFR

使用歐幾里得距離或類似的pyspark中最近的鄰居

回答

相關問題