latent-semantic-indexing

    1熱度

    1回答

    我尋求最有效和最簡單的方法來將800k +學術文章分類爲與定義的概念空間相關的(1)或不相關的(0)(這裏:learning as it relates to work)。 數據是:標題&抽象(平均= 1300個字符),可以使用 任何方法或甚至組合,包括監督的機器學習和/或通過建立產生一些閾值列入特性,其中其他。 方法可以利用key terms that describe the conceptu

    0熱度

    1回答

    所以我試圖從分佈式LSI的gensim運行演示(你可以找到它here)然而每當我運行代碼,我得到錯誤 AttributeError: module 'Pyro4' has no attribute 'expose' 我已經在這裏檢查了計算器類似的問題,他們通常是通過圖書館的誤操作造成的。 但是我沒有直接使用Pyro4,而是使用由gensim引入的分佈式LSI。因此,有沒有犯錯的餘地就在我身邊(或因

    1熱度

    2回答

    問題:我如何計算和碼字的各主題中的頻率是多少? 我的目標是從每個主題創建「詞雲」。 附註:>我有wordcloud沒有問題。 從代碼, burnin <- 4000 #We do not collect this. iter <- 4000 thin <- 500 seed <-list(2017,5,63,100001,765) nstart <- 5

    2熱度

    1回答

    我試圖找出適合Sklearn(Python)的不同概率模型(如潛在Dirichlet分配,非負矩陣分解等)的最佳方法。 查看sklearn文檔中的示例,我想知道爲什麼LDA模型適合TF陣列,而NMF模型適合TF-IDF陣列。這種選擇有明確的理由嗎? 這裏是例子:http://scikit-learn.org/stable/auto_examples/applications/topics_extr

    2熱度

    1回答

    我正在學習奇異值分解的過程中,爲了什麼目的,我可以使用這個概念和我正在閱讀的書中提到SVD用於潛在語義索引。我讀了幾篇關於LSI的文章,似乎LSI主要用於搜索引擎和類似的應用。我想使用LSI進行我正在研究的一個小型數據分析項目,我不確定它是否對我的應用程序有意義。這是我正在與之合作。 我有一個約20000個遊戲列表,其中2個屬性列表是遊戲類型和遊戲發佈平臺。我想用LSI獲取關於平臺和流派屬性的一些

    0熱度

    1回答

    爲了利用潛在語義調整方法從gensim,我要開始與小「的Classique」的例子,如: import logging, gensim, bz2 id2word = gensim.corpora.Dictionary.load_from_text('wiki_en_wordids.txt') mm = gensim.corpora.MmCorpus('wiki_en_tfidf.mm') l

    0熱度

    1回答

    我正嘗試在mahout中運行SVD作業。我有一個矩陣(說A)的大小爲372053 x 21338(文件x的術語)創建(21338沒有唯一的單詞說N,372053文件說M)。所以我的矩陣A的大小(M * N)。我用mahout運行svd,並且得到了清晰的特徵向量(我給出了預期的排名,如200表示R)。現在我有一個由尺寸R * N創建的特徵向量矩陣。 陳述的SVD方程 A = U * S * V '(

    1熱度

    1回答

    我一直在使用LsiModel在gensim建模話題從10000個郵件語料庫。我能夠獲得每個主題的單詞和單詞分數,並將它們存儲在一個文件中。我一直在使用print_topics()和show_topics()嘗試,但都僅返回單詞,這些單詞相關的&得分。但是我還需要它輸出到日誌文件的主題分數,我希望這些值在一個變量中。像下面這個例子日誌輸出: 2010-11-03 16:08:27,602 : INF

    0熱度

    1回答

    我想聚集一些文本文檔以找到具有相同概念的文檔。我已經使用潛在語義分析(LSA)完成了語義相似性,但我混淆了我應該爲我的目的選擇哪種聚類方法。 謝謝

    0熱度

    1回答

    我試圖在R中使用文本數據進行邏輯迴歸。我已經構建了一個文檔矩陣和相應的潛在語義空間。根據我的理解,LSA用於從「術語」中導出「概念」,這可能有助於降低維度。這裏是我的代碼: tdm = TermDocumentMatrix(corpus, control = list(tokenize=myngramtoken,weighting=myweight)) tdm = removeSparseTer