naivebayes

    1熱度

    1回答

    我一直在試驗機器學習,需要開發一個模型,它將根據許多變量進行預測。我可以解釋最簡單的方法是通過下面的「打高爾夫」的例子: train.csv Outlook,Temperature,Humidity,Windy,Play overcast,hot,high,FALSE,yes overcast,cool,normal,TRUE,yes overcast,mild,high,TRUE,yes

    -2熱度

    1回答

    我有以下的數據集... dataset 我已經使用這個 import numpy as np import pandas as pd input_file = "C:/Users/User/Documents/R/exp.csv" df = pd.read_csv(input_file, header = 0) 現在,我試圖做到這一點加載數據... classifier = nltk.N

    0熱度

    1回答

    我正在製作一個機器學習程序,將以下類別之一的字分類:硬件,軟件,None_of_these。我利用sklearn中的Multinomial樸素貝葉斯分類器。 函數predict()給了我對每個單詞的預測,但是,我看不到實際的概率(浮點範圍爲0到1.0),該單詞與預測的分類匹配。我也沒有在sklearn的網站上找到這個。 是否有一個函數給我每個樣本的概率?

    0熱度

    1回答

    我在python的Scikit庫的幫助下構建了一個模型,並且使用交叉驗證方法進行了訓練和測試。但是現在我想用更多的新數據測試模型精度,我如何能夠在構建它之後用新數據進行測試。

    0熱度

    1回答

    我使用泡菜保存分類模型與貝葉斯定理,我已經保存與5600記錄分類後2.1 GB的文件。但是當我加載該文件時,它花費了將近2分鐘的時間,但是對於一些文本的分類花費了5.5分鐘。我正在使用下面的代碼來加載和分類。 classifierPickle = pickle.load(open("classifier.pickle", "rb")) classifierPickle.classify(

    0熱度

    1回答

    我訓練的模型與特徵矩陣尺寸(200716),其中,200是文檔716的數量和被總feature.Now的編號i想測試與模型輸入測試數據具有特徵詞(7)1。如何能夠映射此功能完全相同的許多特徵的,其中我們的模型得到培訓,這樣,我可以使用model.predict(TEST_DATA)功能用於檢查的預測新數據模型。

    1熱度

    1回答

    我對數據邏輯迴歸和樸素貝葉斯運行了兩種不同的分類算法,但即使我改變訓練和測試數據比率,它也給了我相同的精度。以下是我正在使用的代碼 import pandas as pd from sklearn.cross_validation import train_test_split from sklearn.preprocessing import StandardScaler from skl

    0熱度

    1回答

    我設置了一個樸素貝葉斯分類器,試圖確定兩個五個字符串屬性記錄之間的相同性。我只準確地比較每對屬性(即,使用java .equals()方法)。我有一些訓練數據,包括TRUE和FALSE情況,但現在我們只關注TRUE情況。 假設有一些TRUE培訓案例,所有五個屬性都不相同。這意味着每個比較器都會失敗,但是經過一些人類評估後,記錄實際上被確定爲「相同」。 這個訓練案例應該輸入樸素貝葉斯分類器嗎?一方面

    6熱度

    2回答

    樸素貝葉斯我試圖理解爲什麼樸素貝葉斯分類與特徵數量線性縮放,相較於同樣的想法,而不幼稚的假設。我瞭解它how the classifier works和what's so "naive"。我不清楚爲什麼天真的假設給我們線性縮放,而解除這個假設是指數的。我正在尋找一個示例,演示了線性複雜度下的「天真」設置下的算法示例,以及沒有這種假設的同一個示例將展示指數複雜性。

    -2熱度

    1回答

    對文本文檔的特徵空間進行建模非常容易。例如,我可以將文本中的每個單詞(訓練數據)作爲特徵。 如果一個特定的詞(例如「狗」)在(分類的)訓練例子(例如被分類爲垃圾郵件)遇到多次,那麼我可以用這個詞來分類新的數據。 如何模擬我的功能,如果它們不僅僅是單詞? 在我的具體情況下,我有像名字,年齡和家庭大小的功能。 我不認爲這是在我的特徵向量中爲每個可能的年齡創建條目的正確方法。 如果我假設人類不晚於100