我使用隨機超平面讀取了有關最近鄰居搜索的幾個解決方案,但我仍然對這個桶如何工作感到困惑。我有100百萬個文件,形式爲100維向量和100萬個查詢。對於每個查詢,我需要根據餘弦相似性找到最近的鄰居。蠻力的方法是找到cosine
查詢的全部1億個文檔的值,並選擇值接近1的那些。我正在努力使用隨機超平面的概念,在那裏我可以把文檔放在桶中,這樣我就不會必須爲每個查詢計算cosine
值1億次。餘弦相似性LSH和隨機超平面
2
A
回答
2
以幾何方式思考。想象你的數據像高維空間中的點。
創建隨機超平面(更高維度的飛機),使用您的想象力做減少。
這些超平面削減您的數據(點),創建分區,在一些點正在從別人離開的位置(在分區的每一個點,將是一個粗略的估計)。
現在桶應該根據超平面形成的分區進行填充。因此,每個存儲桶包含的點數比點集的總大小要少得多(因爲之前討論的每個分區都包含的點數少於您的點集的總大小)。因此,當你提出一個查詢時,你檢查比總的大小少得多的點(在桶的協助下)。這就是所有的收穫,因爲檢查更少的點數,意味着你比暴力方法更好(更快),它會檢查所有點。
相關問題
- 1. 餘弦相似性 - Python的
- 2. 餘弦相似性問題
- 3. 餘弦相似
- 4. 餘弦相似性和tf-idf
- 5. Scipy,tf-idf和餘弦相似性
- 6. 與gensim和餘弦相似
- 7. 餘弦相似度
- 8. 約餘弦相似
- 9. 餘弦相似度
- 10. 具有餘弦相似性的聚類
- 11. 上面的餘弦相似度結果
- 12. 計算餘弦相似度
- 13. 餘弦相似度[python]的
- 14. 餘弦相似度PHP
- 15. 阿帕奇星火Python的餘弦相似度超過DataFrames
- 16. 餘弦相似度python問題
- 17. java餘弦相似度問題
- 18. 大數據集上的餘弦相似
- 19. 餘弦相似度使用Apache火花
- 20. 用戶推薦的餘弦相似度
- 21. 的Python:TF-IDF餘弦:找文檔相似
- 22. 從餘弦相似值聚類
- 23. 使用TFIDF的餘弦相似度
- 24. Theano中的餘弦相似度
- 25. word2vec的餘弦相似度大於1
- 26. 調整後的餘弦相似度
- 27. Python:餘弦相似度m * n矩陣
- 28. 計算mahout中的餘弦相似度
- 29. 使用Python計算餘弦相似度
- 30. 正弦和餘弦
請參閱http://matpalm.com/resemblance/simhash/ – Mirco