tf-idf

2熱度

1回答

組合我有醫療文本數據的數據集，我申請對他們的TF-IDF矢量化和計算TF IDF得分的話，就像這樣： import pandas as pd from sklearn.feature_extraction.text import TfidfVectorizer as tf vect = tf(min_df=60,stop_words='english') dtm = vect.fit_t

0熱度

1回答

Scikit-Learn TfidfVectorizer

我正在處理文本分類問題，解析來自RSS提要的新聞報道，並且我懷疑很多HTML元素和亂碼都被計爲記號。我知道Beautiful Soup提供了清理HTML的方法，但是我想嘗試傳遞一個字典來更好地控制什麼是記號。這個概念看起來很簡單，但我得到的結果我不明白。 from sklearn.feature_extraction.text import TfidfVectorizer eng_dicti

3熱度

1回答

tfidf輸出的TfidfVectorizer輸出（從最低到最高，反之亦然）

我使用TfidfVectorizer（）從sklearn對我的文本數據的一部分，以獲得每個功能（單詞）的術語頻率感。我當前的代碼如下 from sklearn.feature_extraction.text import TfidfVectorizer tfidf = TfidfVectorizer(analyzer='word', stop_words = 'english') # fit

1熱度

1回答

在詞彙表中刪除一次出現的單詞TF-IDF

我試圖刪除一次出現在我的詞彙表中的單詞，以減少我的詞彙量。我正在使用sklearn TfidfVectorizer（），然後在我的數據框上使用fit_transform函數。 tfidf = TfidfVectorizer() tfs = tfidf.fit_transform(df['original_post'].values.astype('U')) 我首先想到的是在TFIDF矢量化或

0熱度

3回答

從一組文檔

我有一套3000個文本文檔中提取最重要的關鍵詞，我想提取300強的關鍵詞（可以是單個詞或多個單詞）。我曾嘗試下面的方法 - RAKE：這是一個基於Python的關鍵詞提取庫，無疾而終。 Tf-Idf：它給了我每個文檔好的關鍵字，但我們不我能夠聚集並找到代表的文件全組關鍵字。另外，僅僅根據Tf-Idf得分從每個文檔中選擇前k個單詞將無濟於事，對吧？ Word2vec：我能夠做一些很酷的東西，如發

0熱度

1回答

TfidfVectorizer與ID重複返回0的n-gram在熊貓DF

我有一個分組DF： id text 100 he loves ice cream 100 she loves ice 100 i hate avocado 我提取二元語法，頻率和TFIDF分數具有這種功能： def extractFeatures(groupedDF, textCol): features = pd.DataFrame() for id, group

1熱度

1回答

火車模型因'列表'對象沒有'lower'屬性而失敗

我正在通過tweets爲情感分析目的訓練分類器。的代碼如下： df = pd.read_csv('Trainded Dataset Sentiment.csv', error_bad_lines=False) df.head(5) #TWEET X = df[['SentimentText']].loc[2:50000] #SENTIMENT LABEL y = df[['Senti

1熱度

1回答

Gensim的多維文檔

我正在處理文檔比較引擎/搜索引擎。我目前使用它如下... search_doc = ["test search"] documents = ["doc 1 text", "doc 2 text", "doc 3 text", "..."] 然後比較結果。我想怎麼做（在最簡單的術語可能）是具有多維文檔...爲例（具有多個層面，而不僅僅是「文件」的文檔）.. documents = {

0熱度

1回答

過濾餘弦相似度得分爲大熊貓數據幀

我試圖來計算語料庫文本文檔的所有可能的組合之間的餘弦相似度得分。我正在使用scikit-learn的cosine_similarity函數來執行此操作。由於我的語料庫非常龐大（3000萬份文檔），因此語料庫中文檔之間的可能組合數量太多，無法存儲爲數據框。因此，在將它們存儲在數據框中供將來使用之前，我想使用閾值過濾相似性分數，因爲它們正在創建。雖然我這樣做了，但我也希望將這些文檔中的每個文檔的相應I

-3熱度

2回答

SKLearn TF-IDF放下數字？

我正在做文本分析，我想忽略只是數字的「單詞」。例如。從文字「這是000斯巴達！」只應使用'this'，'is'和'Sparta'兩個字。有沒有辦法做到這一點？怎麼樣？