latent-semantic-indexing

1熱度

1回答

我尋求最有效和最簡單的方法來將800k +學術文章分類爲與定義的概念空間相關的（1）或不相關的（0）（這裏：learning as it relates to work）。數據是：標題&抽象（平均= 1300個字符），可以使用任何方法或甚至組合，包括監督的機器學習和/或通過建立產生一些閾值列入特性，其中其他。方法可以利用key terms that describe the conceptu

0熱度

1回答

AttributeError模塊'Pyro4'在運行gensim時沒有屬性'expose'分佈式LSI

所以我試圖從分佈式LSI的gensim運行演示（你可以找到它here）然而每當我運行代碼，我得到錯誤 AttributeError: module 'Pyro4' has no attribute 'expose' 我已經在這裏檢查了計算器類似的問題，他們通常是通過圖書館的誤操作造成的。但是我沒有直接使用Pyro4，而是使用由gensim引入的分佈式LSI。因此，有沒有犯錯的餘地就在我身邊（或因

1熱度

2回答

主題建模：LDA，詞頻每個主題和Wordcloud

問題：我如何計算和碼字的各主題中的頻率是多少？我的目標是從每個主題創建「詞雲」。附註：>我有wordcloud沒有問題。從代碼， burnin <- 4000 #We do not collect this. iter <- 4000 thin <- 500 seed <-list(2017,5,63,100001,765) nstart <- 5

2熱度

1回答

scikit-learn - 我應該使用TF還是TF-IDF模型？

我試圖找出適合Sklearn（Python）的不同概率模型（如潛在Dirichlet分配，非負矩陣分解等）的最佳方法。查看sklearn文檔中的示例，我想知道爲什麼LDA模型適合TF陣列，而NMF模型適合TF-IDF陣列。這種選擇有明確的理由嗎？這裏是例子：http://scikit-learn.org/stable/auto_examples/applications/topics_extr

2熱度

1回答

試圖理解潛在語義索引（LSI）

我正在學習奇異值分解的過程中，爲了什麼目的，我可以使用這個概念和我正在閱讀的書中提到SVD用於潛在語義索引。我讀了幾篇關於LSI的文章，似乎LSI主要用於搜索引擎和類似的應用。我想使用LSI進行我正在研究的一個小型數據分析項目，我不確定它是否對我的應用程序有意義。這是我正在與之合作。我有一個約20000個遊戲列表，其中2個屬性列表是遊戲類型和遊戲發佈平臺。我想用LSI獲取關於平臺和流派屬性的一些

0熱度

1回答

潛在語義指數化與gensim

爲了利用潛在語義調整方法從gensim，我要開始與小「的Classique」的例子，如： import logging, gensim, bz2 id2word = gensim.corpora.Dictionary.load_from_text('wiki_en_wordids.txt') mm = gensim.corpora.MmCorpus('wiki_en_tfidf.mm') l

0熱度

1回答

mahout中的SVD輸出解釋

我正嘗試在mahout中運行SVD作業。我有一個矩陣（說A）的大小爲372053 x 21338（文件x的術語）創建（21338沒有唯一的單詞說N，372053文件說M）。所以我的矩陣A的大小（M * N）。我用mahout運行svd，並且得到了清晰的特徵向量（我給出了預期的排名，如200表示R）。現在我有一個由尺寸R * N創建的特徵向量矩陣。陳述的SVD方程 A = U * S * V '（

1熱度

1回答

如何獲得Gensim LSI模型的主題評分？

我一直在使用LsiModel在gensim建模話題從10000個郵件語料庫。我能夠獲得每個主題的單詞和單詞分數，並將它們存儲在一個文件中。我一直在使用print_topics（）和show_topics（）嘗試，但都僅返回單詞，這些單詞相關的&得分。但是我還需要它輸出到日誌文件的主題分數，我希望這些值在一個變量中。像下面這個例子日誌輸出： 2010-11-03 16:08:27,602 : INF

0熱度

1回答

爲潛在語義分析選擇適當的聚類方法

我想聚集一些文本文檔以找到具有相同概念的文檔。我已經使用潛在語義分析（LSA）完成了語義相似性，但我混淆了我應該爲我的目的選擇哪種聚類方法。謝謝

0熱度

1回答

如何將潛在語義分析的特徵作爲自變量納入預測模型

我試圖在R中使用文本數據進行邏輯迴歸。我已經構建了一個文檔矩陣和相應的潛在語義空間。根據我的理解，LSA用於從「術語」中導出「概念」，這可能有助於降低維度。這裏是我的代碼： tdm = TermDocumentMatrix(corpus, control = list(tokenize=myngramtoken,weighting=myweight)) tdm = removeSparseTer