tf-idf

1熱度

1回答

我在河有一個文檔長期矩陣從tm包 dd <- Corpus(VectorSource(train$text)) #Make a corpus object from a text vector #Clean the text dd <- tm_map(dd, stripWhitespace) dd <- tm_map(dd, tolower) dd <- tm_map(dd, remove

0熱度

1回答

（Text Classification）處理來自不同文檔的相同單詞[TFIDF]

因此，我正在製作一個python類，它可以計算文檔中每個單詞的tfidf權重。現在在我的數據集中，我有50個文檔。在這些文件中，許多單詞相交，因此具有多個相同的單詞特徵，但具有不同的tfidf權重。所以問題是我如何將所有權重歸結爲一個單一的權重？

0熱度

2回答

嵌套循環python值計算單個文件的集合tf-idf值中的增量和檢索

我一直在從文件列表中查找每個文件的總tf-idf值。到目前爲止，我已經計算了每個文件中所有單詞的tf-idf值（以w爲單位）。現在我想添加每個單詞的tf-idf值，最終給出特定文件f的tf-idf值。我在Python方面有點新，而且我正在遇到一些問題。任何建議將不勝感激。（對於Python 2.7） for f in file_list: (some code) for w

0熱度

1回答

嵌套循環python值增量和檢索和寫入文件在tf-df

我一直在努力從文件列表中找到每個文件的總tf-idf值。到目前爲止，我已經計算了每個文件中所有單詞的tf-idf值（在for w in words之內）。現在我想添加每個單詞的tf-idf值，最終爲特定文件f提供tf-idf值，並將文件的tf-idf值寫入文本文件。我在Python方面有點新，而且我正在遇到一些問題。任何建議將不勝感激。 for f in file_list: (some

1熱度

2回答

我是否使用訓練集中的相同idf來執行交叉驗證？

我想使用矢量空間模型在SVM Light中構建SVM分類器。我有1000個文檔和一個術語詞典，我將用它來向量化每個文檔。在1000個文檔中，600個將用於我的訓練集，而其餘400個將被均分（每個200個）用於我的交叉驗證集和我的測試集。現在假設我要訓練我的SVM分類器，使用我的訓練集600（使用tf-idf向量化）來生成分類模型。當我將模型應用於交叉驗證集時，是否會使用相同的idf（因爲模型對

0熱度

1回答

在文檔中排列關鍵字

我有要求在文檔中排列關鍵字。我只有一份文件，所以我不知道TF-IDF有多大幫助。我想根據它們與文檔的鄰近度和相關性對關鍵字進行排名，我想知道我是否可以使用術語向量，如果是的話如何？感謝

6熱度

1回答

Lucene 4.4。如何獲得所有指數的術語頻率？

我正試圖計算文檔中每個術語的tf-idf值。因此，我遍歷文檔中的術語，並希望查找整個語料庫中該術語的頻率以及術語出現的文檔數量。以下是我的代碼： //@param index path to index directory //@param docNbr the document number in the index public void readingIndex(String index

2熱度

1回答

使用SVM時，TF-IDF是否必要？

我正在使用支持向量機對短語進行分類。在使用SVM之前，我明白我應該對短語向量進行某種標準化。一種流行的方法是TF-IDF。具有最高TF-IDF分數的術語通常是最能表徵文檔主題的術語。但是這不正是SVM所做的事情嗎？爲最能表徵文檔的術語賦予最高權重？預先:-)

0熱度

2回答

兩個用於一些條件

迴路我有兩套 tf_ar=[0.0,0.032,0.235,0.65,0,....] and idf=[1.2,1.6,0.68,....] 我要做的IDF和tf_ar的乘法，從而在IDF每學期乘到tf_ar六個學期。這意味着， (number of terms in tf_ar)= [6*(number of terms in idf)] 我應該怎麼需要給條件它，所以它會繼續循環爲tf

0熱度

1回答

我如何修改weka中的tfidf矩陣在java代碼中？

我想修改tfidf矩陣stringtowordvector過濾器的輸出Weka。我如何在Java代碼中訪問這個矩陣？有什麼方法可以改變它嗎？