naivebayes

    0熱度

    1回答

    每當我開始擁有更多的類(1000以上)時,MultinominalNB會變得非常慢並且需要千兆字節的RAM。對於支持.partial_fit()(SGDClassifier,Perceptron)的所有scikit學習分類算法也是如此。 使用卷積神經網絡時,10000個班級沒有問題。但是當我想在相同的數據上訓練MultinominalNB時,我的12GB RAM是不夠的,而且速度非常慢。 從我對樸

    2熱度

    1回答

    我正在運行NaiveBayes模型進行文本分析,其中包含大約2000多個變量和30000多個觀察值。這是非常稀疏的數據,但沒有任何零或不變的列。 model <- NaiveBayes(nation~., data=data_train) 我越來越: "Zero variances for at least one class in variables: " 和50個變量的列表。 該錯誤類

    2熱度

    1回答

    我做了一個與樸素貝葉斯圖書館(Python)的網頁分類的例子,這是完美的工作(classfy網頁非常好)。 其實我有2個問題。首先, 我只使用網頁內容(文章方)。這沒問題,但是,我希望將雙重加權效果的標題整合到輸出中。我可以檢索可變列表名稱爲titles []的頁面標題。這就是我的classfy代碼: x_train = vectorizer.fit_transform(temizdata) c

    6熱度

    2回答

    我想用python進行分類。我使用樸素貝葉斯MultinomialNB分類器的網頁(檢索數據形式的網頁到文本,後來我分類這個文本:網絡分類)。 現在,我試圖將PCA應用於這些數據,但是python卻給出了一些錯誤。 我的分類與樸素貝葉斯代碼: from sklearn import PCA from sklearn import RandomizedPCA from sklearn.featu

    0熱度

    1回答

    我正在嘗試使用樸素貝葉斯算法來構建文本分類模型。 這裏是我的樣本數據(標籤和功能): 1|combusting [chemical] 1|industrial purposes 1| 2|salt for preserving, 2|other for foodstuffs 2|auxiliary 2|fluids for use with abrasives 3|vulcanisa

    0熱度

    1回答

    當使用lucene的SimpleNaiveBayesClassifierSimpleNaiveBayesClassifier#assignClass方法返回ClassificationResult<BytesRef>,我怎樣才能得到類別字段的原始值?

    -2熱度

    1回答

    我有CSV problem.csv 3個數據集與屬性: ID 水平 準確性 solved_count error_count tag1 tag2 TAG3 TAG4 tag5 Submission.csv與attibutes: USER_ID PROBLEM_ID solved_status user.csv與 USER_ID solved_count 嘗試 我想現在的測試數據集用戶是否就能解決問

    -2熱度

    3回答

    我試圖通過逐漸添加每個變量來獲得樸素貝葉斯分類器的錯誤率。例如,我在我的數據集中有25個變量。我希望獲得模型的錯誤率,因爲我一次添加一個變量。所以你知道它會輸出前兩列的模型的錯誤率,前三列的錯誤率,然後輸出前四列,直到最後一列。 這裏是我想要達到 START IMPORT DATASET WITH ALL VARIABLES num_variables = num_dataset_cols

    0熱度

    1回答

    我正在實現一個樸素貝葉斯垃圾郵件檢測器,其功能是單詞,我不確定是否理解正確的算法。 這我如何我想實現的算法: 在訓練集我算從文本的特定詞的頻率存在於垃圾郵件文本,以及它存在於nonspam文本。我還會存儲在培訓期間檢查的垃圾郵件和非垃圾郵件的總數。 現在訓練完成後,假設我有一個新的文本T,我想分類。 予先假設爲垃圾郵件(S)和nonspam(N)的現有probabilites爲: P(S) = 0

    -1熱度

    2回答

    我正在構建一個文本分類器,用於將評論分類爲正面或負面。我對NaiveBayes分類公式有疑問: | P(label) * P(f1|label) * ... * P(fn|label) | P(label|features) = -------------------------------------------- | P(features) 根據我的理解,