該庫和相應的文檔如下 - 是的,我閱讀所有內容並能夠在自己的代碼中「運行」。來自LSHForest的例子,結果不令人信服
http://scikit-learn.org/stable/modules/generated/sklearn.neighbors.LSHForest.html
但結果並沒有真正意義的我,所以我通過例如去(其中包括在先前網頁以及)
>>> from sklearn.neighbors import LSHForest
>>> X_train = [[5, 5, 2], [21, 5, 5], [1, 1, 1], [8, 9, 1], [6, 10, 2]]
>>> X_test = [[9, 1, 6], [3, 1, 10], [7, 10, 3]]
>>> lshf = LSHForest()
>>> lshf.fit(X_train)
LSHForest(min_hash_match=4, n_candidates=50, n_estimators=10,
n_neighbors=5, radius=1.0, radius_cutoff_ratio=0.9,
random_state=None)
>>> distances, indices = lshf.kneighbors(X_test, n_neighbors=2)
>>> distances
array([[ 0.069..., 0.149...],
[ 0.229..., 0.481...],
[ 0.004..., 0.014...]])
>>> indices
array([[1, 2],
[2, 0],
[4, 0]])
所以我只是嘗試驗證通過找到三個測試集的最近鄰居的例子[9,1,6],[3,1,10],[7,10,3]
說搜索最近的鄰居爲[9,1, 6](通過使用歐幾里德距離),最接近的訓練點是[5,5,2]和[6,10,2](我認爲指數會[0.4]) - 這是顯着不同的結果[1,2]
距離也通過簡單的數學計算完全脫離主題,我的Excel表,再次attached
感謝您的時間和幫助
在LSHForest支持的餘弦距離中,這些結果是確切的最近鄰居。 – joeln