tf-idf

0熱度

1回答

藉助Pythons的scikit-learn軟件包中的TfidfVectorizer，我們可以輕鬆地將文檔列表轉換爲具有<term>-frequency-inverse-document-frequency功能的數據集，其中term是出現在文檔中的單詞。 Python中的任何地方TfidfVectorizer的TfVectorizer類似物會產生<term>-frequency特徵，即特徵的值不會

-2熱度

1回答

查找語義連貫文本

我需要一些幫助編寫基於代碼從這些鏈接link1和link2，它會自動計算之間的語義相似的程序。連續的句子和b。句子由1個介入短語，in和整個文檔（1000句子）分隔。提供的代碼已經標記並可以找到語義相似性，但我不知道如何編寫將計算（並顯示）整個文本中連續和「插入」句子之間的語義相似性的新代碼（a，b ）。我不想一遍又一遍地做同樣的事情。

2熱度

2回答

「文檔」在NLP環境中意味着什麼？

當我在Wiki上看到關於tf–idf的消息時，我對「文檔」這個詞意味着什麼感到困惑。這是否意味着段落？「」逆文檔頻率是單詞提供多少信息的度量，也就是說，該術語在所有文檔中是常見還是罕見，它是包含該單詞的文檔的對數縮放反分數，獲得將文件總數除以包含該術語的文件數，然後取該商的對數。「

1熱度

1回答

如何正確使用Java Spark在Apache Spark中製作TF-IDF語句向量？

我有這樣的代碼， public class TfIdfExample { public static void main(String[] args){ JavaSparkContext sc = SparkSingleton.getContext(); SparkSession spark = SparkSession.builder()

0熱度

2回答

計算IDF上的熊貓數據幀

我有DF具有三列的數據幀（逆文檔頻率），如下所示： DocumentID Words Region 1 ['A','B','C'] ['Canada'] 2 ['A','X','D'] ['India', 'USA', 'Canada'] 3 ['B','C','X'] ['Canada'] 我想要計算IDF對每個字中的「詞」列即我想要生成一個輸出，每個單詞

1熱度

1回答

創建TF-IDF矩陣Python 3.6

我有100個文檔（每個文檔都是該文檔中單詞的簡單列表）。現在我想創建一個TF-IDF矩陣，這樣我就可以按等級創建一個小字搜索。我使用tfidfVectorizer嘗試了它，但在語法中丟失了。任何幫助將非常感激。問候。編輯：我轉換列表爲字符串，並添加他們到一個父列表： vectorizer = TfidfVectorizer(vocabulary=word_set) matrix = vecto

0熱度

1回答

TF-IDF向量搜索查詢Python

我已經轉換了一些文件來創建一個TF-IDF Vectorizer。現在我想處理搜索查詢並按照TF-IDF值的遞減順序返回頁面列表。我能夠在'vocabulary_'中查詢查詢詞的位置。但由於它是一個稀疏矩陣，我無法讀取該索引處的tf-idf值。任何幫助將非常感激。 Regards

3熱度

1回答

Python tf-idf：快速更新tf-idf矩陣的方法

我有一個包含數千行文本的數據集，我的目標是計算tfidf得分，然後計算文檔之間的餘弦相似度，這就是我使用gensim在Python跟着教程： dictionary = corpora.Dictionary(dat) corpus = [dictionary.doc2bow(text) for text in dat] tfidf = models.TfidfModel(corpus) co

3熱度

1回答

TF-IDF和餘弦相似度的替代方案（比較不同格式的文檔）

我一直在研究一個小型的個人項目，它需要用戶的工作技能並根據這些技能爲他們提供最理想的職業。我使用工作列表數據庫來實現這一目標。目前，該代碼的工作原理如下： 1）過程的每個作業正文上市提取了在上市 2）對於每個職業（例如，「數據分析」）中提到的技能，結合對於職業的工作列表的文本處理成一個文件 3）職業文檔中計算每個技能的TF-IDF 在此之後，我不知道我應該使用哪個等級的方法基於用戶技能列表的職業生

0熱度

1回答

將單詞轉化爲潛在語義分析（LSA）向量

有沒有人有任何關於如何使用Python和scikit-learn將文檔中的單詞轉換爲LSA向量的建議？我發現這些網站here和here，它們規定了如何將整個文檔轉換爲lsa矢量，但我有興趣轉換單個單詞本身。最終結果是從每個句子中總結所有向量（表示每個詞），然後比較連續句子以評估語義相似性。