1
我有一大堆已經計算好TF-IDF的文檔。我準備向集合中添加更多文檔,並且我想知道是否有一種方法可以在不重新處理整個數據庫的情況下將TF-IDF分數添加到新文檔中?將文檔添加到得分的TF-IDF集合中?
我有一大堆已經計算好TF-IDF的文檔。我準備向集合中添加更多文檔,並且我想知道是否有一種方法可以在不重新處理整個數據庫的情況下將TF-IDF分數添加到新文檔中?將文檔添加到得分的TF-IDF集合中?
基本上有兩種選擇:
計算你的TF-IDF得分只有當你需要他們。現在添加一個新文檔是微不足道的。您只需更新所有文檔的數量,出現令牌的文檔數量並存儲新文檔的令牌出現向量。
定期重新計算你的tf-idf向量,也許在添加100K文件或類似的東西之後。在這之間,只需使用舊值(所有文檔的數量,令牌發生的文檔數量)。
如果你的集合真的很大,你可能會想採取第二種方法,因爲新文檔不會改變單詞的全球分佈。也就是說,最好測試兩種方法並最好地解決適合您問題的方法。
如果你採取選項2,你會不會留下新的從未觀察到令牌?難道這不是回憶不好嗎? – 2010-07-23 11:43:09