tf-idf

    1熱度

    1回答

    我在河有一個文檔長期矩陣從tm包 dd <- Corpus(VectorSource(train$text)) #Make a corpus object from a text vector #Clean the text dd <- tm_map(dd, stripWhitespace) dd <- tm_map(dd, tolower) dd <- tm_map(dd, remove

    0熱度

    1回答

    因此,我正在製作一個python類,它可以計算文檔中每個單詞的tfidf權重。現在在我的數據集中,我有50個文檔。在這些文件中,許多單詞相交,因此具有多個相同的單詞特徵,但具有不同的tfidf權重。所以問題是我如何將所有權重歸結爲一個單一的權重?

    0熱度

    2回答

    我一直在從文件列表中查找每個文件的總tf-idf值。到目前爲止,我已經計算了每個文件中所有單詞的tf-idf值(以w爲單位)。現在我想添加每個單詞的tf-idf值,最終給出特定文件f的tf-idf值。我在Python方面有點新,而且我正在遇到一些問題。任何建議將不勝感激。 (對於Python 2.7) for f in file_list: (some code) for w

    0熱度

    1回答

    我一直在努力從文件列表中找到每個文件的總tf-idf值。到目前爲止,我已經計算了每個文件中所有單詞的tf-idf值(在for w in words之內)。現在我想添加每個單詞的tf-idf值,最終爲特定文件f提供tf-idf值,並將文件的tf-idf值寫入文本文件。我在Python方面有點新,而且我正在遇到一些問題。任何建議將不勝感激。 for f in file_list: (some

    1熱度

    2回答

    我想使用矢量空間模型在SVM Light中構建SVM分類器。我有1000個文檔和一個術語詞典,我將用它來向量化每個文檔。在1000個文檔中,600個將用於我的訓練集,而其餘400個將被均分(每個200個)用於我的交叉驗證集和我的測試集。 現在假設我要訓練我的SVM分類器,使用我的訓練集600(使用tf-idf向量化)來生成分類模型。 當我將模型應用於交叉驗證集時,是否會使用相同的idf(因爲模型對

    0熱度

    1回答

    我有要求在文檔中排列關鍵字。我只有一份文件,所以我不知道TF-IDF有多大幫助。我想根據它們與文檔的鄰近度和相關性對關鍵字進行排名, 我想知道我是否可以使用術語向量,如果是的話如何? 感謝

    6熱度

    1回答

    我正試圖計算文檔中每個術語的tf-idf值。因此,我遍歷文檔中的術語,並希望查找整個語料庫中該術語的頻率以及術語出現的文檔數量。以下是我的代碼: //@param index path to index directory //@param docNbr the document number in the index public void readingIndex(String index

    2熱度

    1回答

    我正在使用支持向量機對短語進行分類。在使用SVM之前,我明白我應該對短語向量進行某種標準化。一種流行的方法是TF-IDF。 具有最高TF-IDF分數的術語通常是最能表徵文檔主題的術語。 但是這不正是SVM所做的事情嗎?爲最能表徵文檔的術語賦予最高權重?預先:-)

    0熱度

    2回答

    迴路我有兩套 tf_ar=[0.0,0.032,0.235,0.65,0,....] and idf=[1.2,1.6,0.68,....] 我要做的IDF和tf_ar的乘法,從而在IDF每學期乘到tf_ar六個學期。這意味着, (number of terms in tf_ar)= [6*(number of terms in idf)] 我應該怎麼需要給條件它,所以它會繼續循環爲tf

    0熱度

    1回答

    我想修改tfidf矩陣stringtowordvector過濾器的輸出Weka。 我如何在Java代碼中訪問這個矩陣?有什麼方法可以改變它嗎?