我使用Python的gensim庫來執行潛在的語義索引。我遵循網站上的教程,它運行得非常好。現在我試圖修改它一下;每次添加文檔時,我都想運行lsi模型。 這裏是我的代碼: stoplist = set('for a of the and to in'.split())
num_factors=3
corpus = []
for i in range(len(urls)):
print "
熊陪我度過我的LSI的適度理解(機械工程背景): 在LSI進行奇異值分解後,你有3個矩陣: U,S和V轉置。 U將單詞與主題進行比較,S是對每個要素的強度的一種度量。 Vt將主題與文檔進行比較。 U dot S dot Vt
返回SVD之前的原始矩陣。如果沒有做深入的太多(無)代數看來: U dot S dot **Ut**
返回由長期矩陣,它提供了條件之間的比較的術語。即一個術語與其他術