tf-idf

    2熱度

    1回答

    組合我有醫療文本數據的數據集,我申請對他們的TF-IDF矢量化和計算TF IDF得分的話,就像這樣: import pandas as pd from sklearn.feature_extraction.text import TfidfVectorizer as tf vect = tf(min_df=60,stop_words='english') dtm = vect.fit_t

    0熱度

    1回答

    我正在處理文本分類問題,解析來自RSS提要的新聞報道,並且我懷疑很多HTML元素和亂碼都被計爲記號。我知道Beautiful Soup提供了清理HTML的方法,但是我想嘗試傳遞一個字典來更好地控制什麼是記號。 這個概念看起來很簡單,但我得到的結果我不明白。 from sklearn.feature_extraction.text import TfidfVectorizer eng_dicti

    3熱度

    1回答

    我使用TfidfVectorizer()從sklearn對我的文本數據的一部分,以獲得每個功能(單詞)的術語頻率感。我當前的代碼如下 from sklearn.feature_extraction.text import TfidfVectorizer tfidf = TfidfVectorizer(analyzer='word', stop_words = 'english') # fit

    1熱度

    1回答

    我試圖刪除一次出現在我的詞彙表中的單詞,以減少我的詞彙量。我正在使用sklearn TfidfVectorizer(),然後在我的數據框上使用fit_transform函數。 tfidf = TfidfVectorizer() tfs = tfidf.fit_transform(df['original_post'].values.astype('U')) 我首先想到的是在TFIDF矢量化或

    0熱度

    3回答

    我有一套3000個文本文檔中提取最重要的關鍵詞,我想提取300強的關鍵詞(可以是單個詞或多個單詞)。 我曾嘗試下面的方法 - RAKE:這是一個基於Python的關鍵詞提取庫,無疾而終。 Tf-Idf:它給了我每個文檔好的關鍵字,但我們不我能夠聚集並找到代表的文件全組關鍵字。 另外,僅僅根據Tf-Idf得分從每個文檔中選擇前k個單詞將無濟於事,對吧? Word2vec:我能夠做一些很酷的東西,如發

    0熱度

    1回答

    我有一個分組DF: id text 100 he loves ice cream 100 she loves ice 100 i hate avocado 我提取二元語法,頻率和TFIDF分數具有這種功能: def extractFeatures(groupedDF, textCol): features = pd.DataFrame() for id, group

    1熱度

    1回答

    我正在通過tweets爲情感分析目的訓練分類器。 的代碼如下: df = pd.read_csv('Trainded Dataset Sentiment.csv', error_bad_lines=False) df.head(5) #TWEET X = df[['SentimentText']].loc[2:50000] #SENTIMENT LABEL y = df[['Senti

    1熱度

    1回答

    我正在處理文檔比較引擎/搜索引擎。我目前使用它如下... search_doc = ["test search"] documents = ["doc 1 text", "doc 2 text", "doc 3 text", "..."] 然後比較結果。 我想怎麼做(在最簡單的術語可能)是具有多維文檔...爲例(具有多個層面,而不僅僅是「文件」的文檔).. documents = {

    0熱度

    1回答

    我試圖來計算語料庫文本文檔的所有可能的組合之間的餘弦相似度得分。我正在使用scikit-learn的cosine_similarity函數來執行此操作。由於我的語料庫非常龐大(3000萬份文檔),因此語料庫中文檔之間的可能組合數量太多,無法存儲爲數據框。因此,在將它們存儲在數據框中供將來使用之前,我想使用閾值過濾相似性分數,因爲它們正在創建。雖然我這樣做了,但我也希望將這些文檔中的每個文檔的相應I

    -3熱度

    2回答

    我正在做文本分析,我想忽略只是數字的「單詞」。例如。從文字「這是000斯巴達!」只應使用'this','is'和'Sparta'兩個字。有沒有辦法做到這一點?怎麼樣?