2016-09-15 52 views
1

因此,我需要使用歐幾里得距離或任何東西,找到pyspark DF中給定行的最近鄰居。我有超過20列,超過千行和所有值的數據是數字。使用歐幾里得距離或類似的pyspark中最近的鄰居

我想在pyspark中過度採樣一些數據,因爲mllib沒有內置的支持,我決定使用smote自己創建它。

我的方法直到現在一直使用stringtoindex將所有分類距離轉換爲索引,以便我可以找到歐幾里德距離和鄰居,從而執行smote。

我是相當新的火花和毫升。任何幫助,將不勝感激。

+0

將您的數據幀轉換爲RDD您的* specific *問題是什麼?請告訴我們你到目前爲止所嘗試過的。堆棧溢出不是一種代碼編寫服務,但如果你至少試圖自己解決問題,人們願意幫助你。請閱讀[如何創建最小,完整和可驗證的示例](http://stackoverflow.com/help/mcve)和[我如何提出一個好問題?](http://stackoverflow.com/help/如何對問)。然後,更新並*改進您的問題*。 –

+0

做了一些編輯,謝謝你的建議。 –

回答

相關問題