tf-idf

    1熱度

    1回答

    我正在使用Java中的Hadoop(無豬或配置單元)編寫TF-IDF用於學習目的。我將分三個步驟進行分類:字數統計,每個文檔的字數統計以及每個單詞的docCount統計。 我相信主鏈的工作是正確的,但是我在開始時有一個問題:在我的第一輪中,如何在映射器中獲取文檔ID?我有以下多個輸入: Path doc1 = new Path(System.getProperty("user.dir") + "/

    0熱度

    1回答

    我使用最常見的答案(Similarity between two text documents)中給出的代碼來計算文檔之間的TF-IDF。然而,我觀察到,當我運行代碼時沒有指定min_df(1,在代碼中)的自定義值,那麼如果兩個文檔完全不同(使得它們中沒有共同詞),而不是接收TF- 0 IDF值,我得到以下錯誤: ValueError: empty vocabulary; training set

    1熱度

    1回答

    我想了解map-reduce概念,並使用mincemeat.py來實現小程序,這是一個開源的python庫。 我已經使用mapper和reducer獲得了一包單詞的簡單字數。但是,我想實現爲文檔中的所有單詞找到tf-idf分數。爲了實現這個目標,我想第一步是獲得{[word,docID]->count}類型的字典。爲此我寫了以下代碼 def mapfn(k, v): for line i

    0熱度

    1回答

    我正在嘗試構建一個java應用程序,它在一組文本文檔上訓練SVM模型並根據模型對新文檔進行分類。我已經瀏覽了很多可以做到這一點的java包,並發現libsvm實現是最好的。 1)我的訓練輸入基本上是一個文本文件,它具有文檔文本和正確的標籤。我知道libsvm軟件包目前僅適用於數字數據,這意味着我必須將我的文本文件和特徵(詞)轉換爲數字形式。 TF-IDF是做這件事的好方法嗎?有沒有一個可以生成TF

    4熱度

    1回答

    我試圖確定一組政府文件中的重要條款。生成術語頻率是沒有問題的。 對於文檔頻率,我希望使用Peter Norvig發佈的handy Python scripts and accompanying data在他的「美麗數據」一章中,其中包括來自Web的龐大數據集中的unigrams頻率。 我的TF-IDF的理解,但問題在於,「文檔頻率」是指含有一個詞的文檔數量,總詞是這個詞,而不是數量這就是我們從弱勢

    3熱度

    1回答

    我正在尋找方法來提高TF-IDF的稱重字符串匹配(相似)方案的準確度相結合。主要問題是TF-IDF對蜇傷中的印刷錯誤很敏感,並且大多數大型數據集傾向於有拼寫錯誤。 我意識到編輯距離(基於字符的相似性度量--- levienshtein,仿射氣體,哈羅和哈羅-溫克勒)的變體適用於計算在存在打印錯誤串之間的相似性,但不適合時的話是不按順序在字符串中。 因此,我想用編輯距離修正,以提高TF-IDF的準確

    4熱度

    1回答

    我設法評估了給定語料庫的tf-idf function。我如何找到每個文檔的停用詞和最佳單詞?我知道給定的單詞和文檔的低tf-idf意味着選擇該文檔不是一個好詞。

    1熱度

    1回答

    我正在使用樸素貝葉斯分類器。在此之後tutorial。 對於訓練有素的數據,我使用308個問題並將它們分類爲26個手動標記的類別。 發送數據之前,我正在執行NLP。在NLP中,我正在執行(標點符號刪除,標記化,停用詞刪除和詞幹) 此過濾的數據用作mahout的輸入。 使用mahout NBC的我訓練這些數據並獲取模型文件。現在當我運行 mahout testnb 命令我得到正確的分類實例爲96

    1熱度

    1回答

    我想在WEKA GUI中使用帶TF-IDF的KNN算法。首先,我在默認條件下運行算法。其次我在StringToWordVector過濾器中選擇「IDFTransform」和「TFTransform」爲「true」並運行。 還有沒有什麼區別有兩個結果。 結果1: Correctly Classified Instances 1346 91.3781 % 結果2: Correctly Cl

    4熱度

    1回答

    如何在Lucene中實現tf-idf和餘弦相似性?我正在使用Lucene 4.2。我創建的程序不使用tf-idf和Cosine similaryty,它只使用TopScoreDocCollector。 import com.mysql.jdbc.Statement; import java.io.BufferedReader; import java.io.File; import java