從我從網上找到的文檔中找出用於確定語料庫中詞語的詞頻和反文檔頻率權重的表達式爲如何在python中的gensim工具中實現TF-IDF?
tf-idf(wt)= tf * log( | N |/d);
我正在通過gensim中提到的tf-idf的實現。 文檔中給出的例子是
>>> doc_bow = [(0, 1), (1, 1)]
>>> print tfidf[doc_bow] # step 2 -- use the model to transform vectors
[(0, 0.70710678), (1, 0.70710678)]
,這顯然不符合標準執行TF-IDF的。 這兩個模型有什麼區別?
注:0.70710678是通常在特徵值計算中使用的值2 ^( - 1/2)。 那麼特徵值如何進入TF-IDF模型呢?