Gensim的相似性：它是如何工作的？

我不知道similarity如何與gensim一起使用？如何創建不同的分片，並在只查看前N個相似文檔時提高性能？更一般地說，是否有關於gensim內部結構的文檔？Gensim的相似性：它是如何工作的？

2017-07-27 debzsud

gensim的內部的文檔是完整的源代碼：

https://github.com/RaRe-Technologies/gensim

隨着高維數據這樣，找到確切前N個最相似的矢量通常需要一個詳盡的搜索所有候選人。也就是說，沒有簡單的分片可以讓大多數矢量被忽略，因爲它們太遠而且仍然給出精確的結果。

還有是近似索引技術，如ANNOY，可以加快搜索...但他們往往會錯過一些真正的前N結果。 Gensim包含demo notebook of using ANNOY-indexing with gensim's word2vec support。（應該可以對其他文本向量進行類似的操作，例如您鏈接教程中的書包表示法。）

來源

2017-07-27 17:32:34 gojomo

感謝清晰度和ANNOY建議。 – debzsud

Gensim的相似性：它是如何工作的？

回答

相關問題