latent-semantic-indexing

    4熱度

    3回答

    我使用Python的gensim庫來執行潛在的語義索引。我遵循網站上的教程,它運行得非常好。現在我試圖修改它一下;每次添加文檔時,我都想運行lsi模型。 這裏是我的代碼: stoplist = set('for a of the and to in'.split()) num_factors=3 corpus = [] for i in range(len(urls)): print "

    1熱度

    1回答

    熊陪我度過我的LSI的適度理解(機械工程背景): 在LSI進行奇異值分解後,你有3個矩陣: U,S和V轉置。 U將單詞與主題進行比較,S是對每個要素的強度的一種度量。 Vt將主題與文檔進行比較。 U dot S dot Vt 返回SVD之前的原始矩陣。如果沒有做深入的太多(無)代數看來: U dot S dot **Ut** 返回由長期矩陣,它提供了條件之間的比較的術語。即一個術語與其他術

    3熱度

    2回答

    從我從網上找到的文檔中找出用於確定語料庫中詞語的詞頻和反文檔頻率權重的表達式爲 tf-idf(wt)= tf * log( | N |/d); 我正在通過gensim中提到的tf-idf的實現。 文檔中給出的例子是 >>> doc_bow = [(0, 1), (1, 1)] >>> print tfidf[doc_bow] # step 2 -- use the model to transf

    10熱度

    3回答

    我讀過關於使用奇異值分解(SVD)在文本語料庫中進行潛在語義分析(LSA)。我已經理解如何做到這一點,我也理解SVD的數學概念。 但我不明白爲什麼它適用於文本的文集(我相信 - 必須有語言解釋)。有人可以用語言的角度來解釋我嗎? 由於

    6熱度

    1回答

    最近我一直在進行潛在語義分析。我通過使用Jama軟件包在java中實現了它。 下面是代碼: Matrix vtranspose ; a = new Matrix(termdoc); termdoc = a.getArray(); a = a.transpose() ; SingularValueDecomposition sv =new SingularVa

    6熱度

    1回答

    我想跟隨在Python中Wikipedia Article on latent semantic indexing使用下面的代碼: documentTermMatrix = array([[ 0., 1., 0., 1., 1., 0., 1.], [ 0., 1., 1., 0., 0., 0., 0.], [ 0., 0., 0., 0., 0.,

    9熱度

    3回答

    我正在處理一個項目,該項目需要我將一個詞組或關鍵字與一組相似的關鍵字進行匹配。我需要爲此進行語義分析。 一個例子: 相關QT 便宜的醫療保險 負擔得起的醫療保險 低成本醫療保險少 廉價的健康保險 一般的含義, 健康計劃 低成本健康保險 這裏「通用含義」欄下的單詞應與「相關QT」欄下的單詞匹配。我看了一堆工具和技術來做同樣的事情。 S-Match似乎很有前途,但我必須使用Python而不是Java。

    0熱度

    1回答

    自從早上我已經閱讀了很多教程。我的問題涉及找到兩個文件之間的相似性。我期待在java中使用LSA來達到這個目的。 我明白朮語 - 文檔矩陣的創建,然後將SVD(維度得到降低)應用於它。 3矩陣是作爲results.This聽起來可能聽起來很愚蠢,但我一直堅持了這一段時間。現在,如果我必須找到兩個文件之間的相似性,我該怎麼辦?

    3熱度

    3回答

    我正在嘗試使用支持向量機(SVM)進行文檔分類。我擁有的文件是電子郵件的收集。我有大約3000個文檔來訓練SVM分類器,並且有大約700個需要分類的測試文檔集。 我最初使用二進制DocumentTermMatrix作爲SVM訓練的輸入。測試數據的分類準確度達到了81%左右。 DocumentTermMatrix在刪除幾個停用詞後使用。因爲我想提高這個模型的準確性,我嘗試過使用基於LSA/SVD的降

    2熱度

    2回答

    我正在嘗試推出一個基於主題的推薦系統來向用戶建議相關的文本文檔。 我在wikipedia語料庫上使用gensim訓練了一種潛在語義索引模型。這使我可以輕鬆地將文檔轉換爲LSI主題分發。我現在的想法是以同樣的方式代表用戶。但是,用戶當然有閱讀文章的歷史,以及文章的評分。 所以我的問題是:如何表示用戶? 我的想法如下:將用戶表示爲所有查看文檔的聚合。但如何考慮評分? 任何想法? 謝謝