2017-07-27 45 views

回答

1

gensim的內部的文檔是完整的源代碼:

https://github.com/RaRe-Technologies/gensim

隨着高維數據這樣,找到確切前N個最相似的矢量通常需要一個詳盡的搜索所有候選人。也就是說,沒有簡單的分片可以讓大多數矢量被忽略,因爲它們太遠而且仍然給出精確的結果。

還有近似索引技術,如ANNOY,可以加快搜索...但他們往往會錯過一些真正的前N結果。 Gensim包含demo notebook of using ANNOY-indexing with gensim's word2vec support。 (應該可以對其他文本向量進行類似的操作,例如您鏈接教程中的書包表示法。)

+0

感謝清晰度和ANNOY建議。 – debzsud

相關問題