2016-02-18 59 views
4

我正在尋找使用Python上的gensim來計算文檔之間的相似度。限制gensim相似度計算到一個語料庫的子集

我想要一種方法能夠將計算限制爲只有語料庫的一個子集。具體來說,我的文檔有一個關聯的年份,並且我想要一種只搜索搜索文檔和其他文檔之間具有相同值的變量的相似性的方法。

我看不到任何說明。 http://radimrehurek.com/gensim/simserver.html關於如何將附加變量與每個文檔相關聯,以及如何將相似性限制爲僅限於那些文檔 - 實際上我試圖做的可能不可行。因此,我的問題是,這是可能的,還是實現這一點的唯一方法是使用多個語料庫。

回答

0

您可以通過忽略不適合您目標年份的結果來解決此問題。

  1. 爲您的文檔創建document2year_dict(document,year)。
  2. 從 target_document獲取距離順序的文檔列表。
  3. 迭代通過列表和丟棄的文件 如果document2year_dict [current_document]!= target_year