naivebayes

    1熱度

    1回答

    我正在處理類非常不平衡的分類問題。爲了解決這個問題,我使用了替換過度採樣。 (如這裏所建議的:http://machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/ )。 然後我將數據集(過採樣的一個)分成訓練和測試集,並訓練樸素貝葉斯算法。當我想測試時,可以使

    0熱度

    1回答

    我現在通過使用nltk來學習naivebayes分類器。 在文檔(http://www.nltk.org/book/ch06.html)1.3文檔分類中,有一個特徵集示例。 featuresets = [(document_features(d), c) for (d,c) in documents] train_set, test_set = featuresets[100:], featur

    -1熱度

    1回答

    我已經使用e1071軟件包爲樸素貝葉斯分類器創建了一個模型。我需要以下面的格式打印條件概率。 (A1 = x1 | c1)= 0.33 P(A2 = y1 | c1)= 0.67 P(A2 = y2 | c1)= 0.25 P(A2 = y2 | c1)= 0.32 P = 0.75 P(A3 = z1 | c1)= 0.26 P(A3 = z2 | c1)= 0.49 P(A3 = z3 | c

    0熱度

    1回答

    我遇到了一個問題,我只想總結一下我正在嘗試完成的內容,以便您獲得清晰的圖像來指導我。 我想創建一個語料庫類似的東西movie_reviews其中movie_review只有2個類別,但如果在我來說,我將有多個類別和子類別。 例如: 說我有一個語料庫my_corpus中,我想 創建的類別,如 'A', 'B', 'C', 'd' 和 'E'。每個 類別都將包含子類別,例如在'A'中,我想要 子類別,

    0熱度

    1回答

    如何解決此錯誤? mvnpdf.m % y = mvnpdf(x,mu,Sigma) % Compute multivariate normal pdf for x given mean mu and covariance matrix % sigma. The dimension of x is d x p, mu is 1 x p and sigma is p x p. functio

    0熱度

    1回答

    我現在正在製作nltk_classifier分類句子的分類。 所以我已經用11000個句子的特徵集訓練了分類器。 train_set, test_set = featuresets[1000:], featuresets[:1000] classifier = naivebayes.NaiveBayesClassifier.train(train_set) 但我想爲升級分類器添加更多(句子,

    1熱度

    1回答

    我必須實現樸素貝葉斯分類器將文檔分類到一個類。因此,在獲得屬於類的術語的條件概率以及拉普拉斯平滑時,我們有: prob(t | c)= Num(Word出現在類c的文檔中)+ 1/Num(類c)中的文檔+ | V | 它是一個bernoulli模型,它可能有1或0,詞彙量非常大,可能有20000個單詞等等。所以,拉普拉斯平滑不會由於詞彙量龐大而給出非常小的值,或者我做錯了什麼。 根據此鏈接的僞代碼

    0熱度

    1回答

    我在使用klaR包運行樸素貝葉斯時遇到此錯誤。 我想分享數據以便複製,但是我這樣做有一些限制,因爲我不確定發生了什麼,所以無法創建將會重新創建自己的數據集。我希望有人讀到這個可能以前遇到過並且克服了這個錯誤。 以下是錯誤: Error in if (any(temp)) stop("Zero variances for at least one class in variables: ", :

    -1熱度

    1回答

    比方說,我有一個數據集有9個連續的數據列和4個分類數據列。在Matlab中,我的列分成兩組並在其上做訓練/測試(樸素貝葉斯)分開,並確定該連續列具有0.45錯誤率和分類列具有一個錯誤0.33。我的問題是 - 我如何確定組合錯誤? EDIT - 簡單的僞代碼概述加入: for x = 1:num_iterations Mdl_NB1 = fitcnb(TrainingSet_Con,Tra

    -1熱度

    1回答

    我想問一下,我有10個有聲參數的列,以及在此刻記錄兩個樂器的兩列之後。 我有10列聲音參數的數據後,我需要預測使用哪一臺儀器。 我知道數據預處理等,但我想仔細檢查我是否選擇了正確的分類。對於我提供的例子,適用於NaïveBayes或線性迴歸還是SVN?我只是混淆了哪一個更適合這個特殊的例子。