tf-idf

    0熱度

    1回答

    如何使用TfidfVectorizer函數知道特定單詞的值? 例如,我的代碼是: docs = [] docs.append("this is sentence number one") docs.append("this is sentence number two") vectorizer = TfidfVectorizer(norm='l2',min_df=0, use_idf=Tru

    1熱度

    1回答

    我今天認識到,tf和/或tfidf似乎在R中被破壞。請參閱下面的示例。它使用手冊中的數據,即crude。我認爲,由此產生的頻繁期限清單並不相同。但他們是平等的。這絕不應該發生,對吧? data("crude") dtm <- DocumentTermMatrix(crude, control = list(weighting = function(x) weightTf, stopwords

    0熱度

    1回答

    假設我們已經使用TFIDF變換將文檔編碼爲連續值特徵。 我們現在如何將它用作樸素貝葉斯分類器的輸入? 伯努利樸素貝葉斯出來了,因爲我們的特點是不是二進制了。 好像我們不能使用Multinomial naive-bayes,因爲這些值是連續的而不是絕對的。 作爲替代方案,是否適合使用高斯樸素貝葉斯呢? TFIDF向量可能在高斯分佈假設下保持良好? 的SCI-Kit瞭解用於MultionomialNB

    1熱度

    1回答

    我在2D中繪製了一組文本文檔,並且發現了一些異常值,我希望能夠找出這些異常值。我正在使用原始文本,然後使用SKLearn中內置的TfidfVectorizer。 vectorizer = TfidfVectorizer(max_df=0.5, max_features=None, min_df=2, stop_words='english', use

    0熱度

    1回答

    嗨,我試圖找出文檔列表中最具代表性的文檔可能是什麼。我想知道是否有任何資源或文件能夠做到這一點。我已經把一些簡單的統計數據,幫助我做到這一點: 移除停止字,使用二元語法 矩陣乘法和TF乘以DF的總和來獲得該文檔 不管文檔具有得分一個最接近平均TF * DF的TF * DF分數將被檢索 所以這個想法是,DF越高,它就越能代表語料庫。如果TF評分是針對平均值進行優化的,那麼過度使用或使用較低DF詞彙的

    2熱度

    2回答

    我正在嘗試使用tf-idf來羣集類似的文件。我的系統的一個主要缺點是它使用餘弦相似性來決定哪些矢量應該組合在一起。 問題是餘弦相似性不滿足三角不等式。因爲在我的情況下,我不能在多個集羣中擁有相同的矢量,我必須將每個集羣與一個共同的元素進行合併,這可能會導致兩個文檔被分組在一起,即使它們彼此不相似。 是否有措施的另一種方式兩個文件的相似性,因此: 的載體,基於自己的方向進球非常相似,無論其規模的 手

    1熱度

    1回答

    我有一個大的語料庫存儲爲25個列表的字典,我想用SKLearn的TfidfVectorizer來分析。每個列表包含許多字符串。現在,我關心整個語料庫中的總體詞頻(tf)和25個字符串(idf)的每個列表中最獨特的詞。問題是,我還沒有找到將這種對象傳遞給TfidfVectorizer的方法。通過字典只是矢量化的關鍵,傳遞值產生AttributeError: 'list' object has no

    0熱度

    1回答

    我正在開發搜索算法,並且我正在努力理解如何實際使用奇異值分解的結果(u,w,vt = svd( a))減少術語文件矩陣。 例如,假設我有一個M×N的矩陣如下,其中每列表示(每個文檔中許多術語)的文件向量 a = [[ 0, 0, 1 ], [ 0, 1, 2 ], [ 1, 1, 1 ], [ 0, 2, 3 ]] 現在,我可以在運行一個TF-IDF功能這個矩陣爲

    0熱度

    1回答

    我有保存在csv文件中的重複文檔對的列表。從第1列每個ID是重複的,以相應的ID列2 該文件是這樣的: Document_ID1 Document_ID2 12345 87565 34546 45633 56453 78645 35667 67856 13636 67845 每個文檔ID與保存在其他地方的文本關聯。我拉下這段文字,並將每一列ID和相關文本保存到兩個

    0熱度

    1回答

    我想創建一個計算2個字符串之間相似度的應用程序。 字符串不長。 3句最長。 我做了一些研究,並且遇到了一些可能的解決方案路徑。話的 首先一個使用袋:計算單詞和比較2個製作載體(餘弦相似性) 第二使用TF-IDF,並比較所產生的載體。 第三是使用word2vec和比較向量。 現在的問題。 表現明智的是word2vec表現更好,TF-IDF的短句子? 培訓word2vec模型的最佳方法是什麼?我應該使