0
我需要k個數據幀中每個特徵向量的k個最近鄰居。我使用pyspark的BucketedRandomProjectionLSHModel。用於創建模型在火花中使用LSH運行數據幀中每個點的最近鄰居查詢
brp = BucketedRandomProjectionLSH(inputCol="features", outputCol="hashes",seed=12345, bucketLength=n)
model = brp.fit(data_df)
df_lsh = model.transform(data_df)
現在
碼,我如何運行在data_df每個點約近鄰查詢。
我試過廣播模型,但得到了泡菜錯誤。 此外,定義UDF訪問模型給出錯誤Method __getstate__([]) does not exist