2017-09-08 35 views
0

我需要k個數據幀中每個特徵向量的k個最近鄰居。我使用pyspark的BucketedRandomProjectionLSHModel。用於創建模型在火花中使用LSH運行數據幀中每個點的最近鄰居查詢

brp = BucketedRandomProjectionLSH(inputCol="features", outputCol="hashes",seed=12345, bucketLength=n) 

model = brp.fit(data_df) 
df_lsh = model.transform(data_df) 

現在

碼,我如何運行在data_df每個點約近鄰查詢。

我試過廣播模型,但得到了泡菜錯誤。 此外,定義UDF訪問模型給出錯誤Method __getstate__([]) does not exist

回答

2

使用時應使用.approxSimilarityJoin

model.df_lsh(df_lsh, df_lsh)