lsa

    0熱度

    1回答

    我根據條款計算了我的文檔的tf-idf。然後,我應用LSA來降低條款的維度。 'similarity_dist'包含負值(參見下表)。我如何計算範圍0-1的餘弦距離? tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2, tokenizer=tokenize_and_stem, stop_words='english') %time tf

    -3熱度

    2回答

    我有python 2.7,這是我的代碼,當我運行它,我得到這個錯誤:'繼續'不正確的循環。 我知道'繼續'應該在循環內部,但我在if裏面使用它,那我該怎麼辦? from numpy import zeros from scipy.linalg import svd from math import log from numpy import asarray, sum #from nltk.

    -1熱度

    1回答

    比較選擇2列存儲在每個行中的文本我有2個矢量 一個= C( 「ABC」, 「DEF」, 「GHI」, 「JKL」) B = C( 「ABC」, 「dez」,「gyx」,「mno」) 如何獲得餘弦值以比較相應的條目?在這種情況下,我需要能夠說每個向量中的第一個條目完全相似,並且每個向量中的第二個條目稍微相似...並且每個向量中的最後一個條目完全不相似?我嘗試了LSA包 - 但我能得到一個整體的餘弦值

    0熱度

    1回答

    我正在進行潛在語義分析,我試圖從2個文檔中獲得相似度。我在Python上運行我的潛在語義分析代碼,當我運行它時,我得到: Here are the singular values [ 0.7376057 0.4596623 0.25422212] Here are the first 3 columns of the U matrix [[ 0.98465137 -0.172792 -0.0

    0熱度

    1回答

    我嘗試學習scala和特定文本minning(詞形化,TF-IDF矩陣和LSA)。 我有一些文本我想要lemmatize並作出分類(LSA)。我在cloudera上使用spark。 所以我用了stanfordCore NLP fonction: def plainTextToLemmas(text: String, stopWords: Set[String]): Seq[String] = {

    0熱度

    1回答

    我一直對潛在語義分析(LSA)和應用這個例子:https://radimrehurek.com/gensim/tut2.html 它包括以下主題的條款集羣,但無法找到任何我們可以如何在主題下聚集文件。 在這個例子中,它說'根據LSI看來,「樹」,「圖」和「未成年人」都是相關詞(對第一個主題的方向貢獻最大),而第二個話題實際上與所有其他詞語有關。正如預期的那樣,前五個文檔與第二個主題更爲緊密相關,而

    2熱度

    2回答

    當我從下面這個Scikit使用教程K均值文本聚類學習K-手段之前使用LSA: http://scikit-learn.org/stable/auto_examples/text/document_clustering.html 在這個例子中,可選LSA(使用SVD)用於執行降維。 爲什麼這很有用?使用「max_features」參數可以在TF-IDF矢量化器中控制尺寸(特徵)的數量。 我知道LSA

    3熱度

    1回答

    我知道gensim中的word2vec可以計算單詞之間的相似度。但是現在我想用TF-IDF或者LSA來計算詞的相似度,用gensim。怎麼做? 注:計算使用LSA與gensim文檔相似性很容易:http://radimrehurek.com/gensim/wiki.html

    0熱度

    1回答

    有沒有人有任何關於如何使用Python和scikit-learn將文檔中的單詞轉換爲LSA向量的建議?我發現這些網站here和here,它們規定了如何將整個文檔轉換爲lsa矢量,但我有興趣轉換單個單詞本身。 最終結果是從每個句子中總結所有向量(表示每個詞),然後比較連續句子以評估語義相似性。

    0熱度

    1回答

    我打算使用sklearn.decomposition.TruncatedSVD爲一個Kaggle 比賽進行LSA,我知道後面SVD和LSA數學,但我通過 scikit學習的用戶指南困惑,所以我不知道怎麼樣實際適用 TruncatedSVD。 在the doc,它指出: 此操作後, U_k * transpose(S_k)是變換訓練k功能(在API中稱爲n_components)設置 這是爲什麼?我