1
我不知道similarity如何與gensim一起使用?如何創建不同的分片,並在只查看前N個相似文檔時提高性能?更一般地說,是否有關於gensim內部結構的文檔?Gensim的相似性:它是如何工作的?
我不知道similarity如何與gensim一起使用?如何創建不同的分片,並在只查看前N個相似文檔時提高性能?更一般地說,是否有關於gensim內部結構的文檔?Gensim的相似性:它是如何工作的?
gensim的內部的文檔是完整的源代碼:
https://github.com/RaRe-Technologies/gensim
隨着高維數據這樣,找到確切前N個最相似的矢量通常需要一個詳盡的搜索所有候選人。也就是說,沒有簡單的分片可以讓大多數矢量被忽略,因爲它們太遠而且仍然給出精確的結果。
還有是近似索引技術,如ANNOY,可以加快搜索...但他們往往會錯過一些真正的前N結果。 Gensim包含demo notebook of using ANNOY-indexing with gensim's word2vec support。 (應該可以對其他文本向量進行類似的操作,例如您鏈接教程中的書包表示法。)
感謝清晰度和ANNOY建議。 – debzsud