我有一個來自ISI論文的tf-idf示例。我試圖通過這個例子驗證我的代碼。但是我從我的代碼中得到了不同的結果。我不知道原因是什麼!從紙使用gensim的Tf-idf計算
期限 - 文檔矩陣:
acceptance [ 0 0.4 0 0.3 0.7 0
information 0 0.7 0 0.5 0 0
media 0.3 0 0.2 0 0 1
model 0 0 0.6 0.5 0 0
selection 0.9 0 0.6 0 0 0
technology 0 0.4 0 0.3 0.7 0]
我的TF-IDF矩陣:
acceptance [ 0 0.4 0 0.3 0.7 0
information 0 0.7 0 0.5 0 0
media 0.5 0 0.4 0 0 1
model 0 0 0.6 0.5 0 0
selection 0.8 0 0.6 0 0 0
technology 0 0.4 0 0.3 0.7 0]
我的代碼:
從紙acceptance [ 0 1 0 1 1 0
information 0 1 0 1 0 0
media 1 0 1 0 0 2
model 0 0 1 1 0 0
selection 1 0 1 0 0 0
technology 0 1 0 1 1 0]
TF-IDF矩陣
tfidf = models.TfidfModel(corpus)
corpus_tfidf=tfidf[corpus]
我嘗試另一個像這樣的代碼:
transformer = TfidfTransformer()
tfidf=transformer.fit_transform(counts).toarray() ##counts is term-document matrix
但是,正如你提到的是,有許多方法來計算TF我沒有得到合適的答案
什麼是你的語料庫? –
@Mahmood Kohansal - 詞典:'{u'media':0,u'technolog':3,u'accept':4,u'inform':2,u'model':5,u'select': (1,1)'和語料庫:[[(0,1),(1,1)],[(2,1),(3,1),(4,1)],[(0,1),( (1,1,1),(5,1)],[(2,1),(3,1),(4,1),(5,1)],[(3,1),(4,1) ],[(0,2)]]' – mahshid