tf-idf

    0熱度

    1回答

    我正在嘗試使用TFIDF從文本文章的標題中獲取功能。我做的是以下情況: from sklearn.feature_extraction.text import TfidfVectorizer corpus_title = result_df['_title'].tolist() tfidf_transformer_title = TfidfVectorizer(min_df = 1, ngra

    0熱度

    1回答

    你好下面是我的功能在Python def tf_idf(self,job_id,method='local'): jobtext = self.get_job_text (job_id , method=method) tfidf_vectorizer = TfidfVectorizer(max_df=0.8 , max_features=200000 ,

    3熱度

    1回答

    我正在嘗試獲取日語單詞的tf-idf值。 我遇到的問題是sklearn TfidfVectorizer將一些我想保留的日語字符作爲停用詞移除。 以下爲例子: from sklearn.feature_extraction.text import TfidfVectorizer tf = TfidfVectorizer(stop_words = None) words_list = ["歯",

    0熱度

    1回答

    我在機器學習之前做了一些文本預處理。我有兩個特點(熊貓系列) - abstract和title - 並使用以下功能對數據進行預處理(給人一種numpy的陣列,其中每行包含一個訓練樣本的特徵): def preprocessText(data): stemmer = nltk.stem.porter.PorterStemmer() preprocessed = [] f

    1熱度

    1回答

    因此,我一直負責培訓電話記錄模型。以下代碼執行此操作。一個小背景信息: - x是字符串列表,每個第i個元素是整個轉錄本 - y是布爾值列表,表明調用的結果是正數還是負數。 以下代碼有效,但這是我的問題。 我想將通話時間作爲一項功能加以訓練。我會假設TFIDF轉換器向量化成績單後,我只是將通話時長功能連接到TFIDF輸出權?也許這比我想象的要容易些,但是我在代碼的開頭看到熊貓數據框中的成績單和持續時

    1熱度

    1回答

    我正在使用以下代碼。我已經存儲了所有文檔的tfidf矩陣,現在我需要特定文檔的前n個單詞? 我很困惑如何得到它? 這是我以前到現在的代碼。我需要與最高TFIDF import glob import pandas as pd import math filenames=[] corpus = [] df=pd.DataFrame(columns=['article','similar',

    0熱度

    1回答

    我有一個來自ISI論文的tf-idf示例。我試圖通過這個例子驗證我的代碼。但是我從我的代碼中得到了不同的結果。我不知道原因是什麼!從紙 期限 - 文檔矩陣: acceptance [ 0 0.4 0 0.3 0.7 0 information 0 0.7 0 0.5 0 0 media 0.3 0 0.2 0 0 1 model 0 0 0.6 0.5 0 0 selectio

    2熱度

    1回答

    當使用TF-IDF比較文檔A時,B 我知道文檔長度並不重要。 但是在這種情況下,與A-B相比,A-C ,我認爲文件B,C的長度應該是相同的長度。 例如 日誌:100個字 文獻A:20個詞語 文獻B:30個字 日誌 - A的TF-IDF評分:0.XX 日誌 - B的TF-IDF評分:0.xx 我應該對文檔A,B進行規範化嗎? (如果比較目標不同,它似乎是一個問題或錯誤的結果)

    0熱度

    2回答

    我正在做一個簡單的二進制分類,我給你一個我有問題的例子:可以說我們有n文檔(Doc 1,Doc 2, ...,Doc n。)我們將使用TF-IDF作爲特徵值來訓練一個二進制分類器,使用bag-of-words。我們有m我們的培訓文件的功能(從技術上來說,這是我們在清理和預處理之後在所有這n個文件中具有的唯一令牌的數量)。 現在,讓我們說我們有一個訓練有素的模型,我們要預測一個新文檔的標籤。我們應該

    0熱度

    1回答

    使用R和tm,我加載並清理了一堆文本文檔,並將它們製作成語料庫。之後,我使用tf-idf構建了他們的DTM,並且可以用於各種分類聚類算法。到現在爲止還挺好。 現在,讓我們假設我有一個新文檔,並嘗試計算它與Corpus中文檔的距離。當然,我需要將它應用於原始集合的所有轉換。但我不明白如何計算新文檔的tf-idf矢量,因爲tf-idf依賴於整個集合,而不是單個文檔。將新文檔添加到語料庫並重新計算其tf