knn

    0熱度

    1回答

    我正在使用scikit-learn的KNN迴歸器來將模型擬合到一個大型數據集中,其編號爲n_neighbors = 100-500。考慮到數據的性質,一些部分(想象:峯值等尖銳的delta函數)更適合於較少的鄰居(n_neighbors ~ 20-50),以便峯值不會被平滑掉。這些峯的位置是已知的(或可以測量)。 有沒有辦法改變n_neighbors參數? 我可以安裝兩個模型並將它們縫合在一起,但

    1熱度

    1回答

    所以目前我有以下幾點,它通過從我的具有計算距離的「距離」數組中獲取最小距離值來找到最短/最近鄰居。然後它會進行另一次搜索來追蹤它的索引,然後向我指明它屬於哪個病人。 但是,說我想找到3個最近的鄰居,我該怎麼做?我是否需要完全改變我的代碼以適應此? 非常感謝 int min = 99; int d = 1; String diagnosis; //Finding sm

    4熱度

    1回答

    我試圖使用SciKit-Learn來執行我的第一個KNN分類器。我一直在關注用戶指南和其他在線示例,但有幾件事我不確定。對於這篇文章,您使用以下 X =數據 Y =目標 1)在大多數的介紹,我讀過它似乎在說你想要一個訓練集,驗證集機器學習的網頁,和一套測試裝置。根據我的理解,交叉驗證允許您將訓練和驗證集合在一起以訓練模型,然後您應該在測試集上對其進行測試以獲得分數。但是,我在論文中看到,在很多情況

    1熱度

    1回答

    我有大約1M的二進制numpy數組,我需要讓漢明之間的距離找到de k-nearest-neighbors,我得到的最快速的方法是使用cdist,返回一個具有距離的浮點矩陣。 因爲我沒有足夠的內存來獲得1Mx1M浮點數矩陣所以我做在這樣的時候一個元素: from scipy.spatial Import distance Hamming_Distance = distance.cdist(arr

    1熱度

    1回答

    我有一個多分類問題,我試圖運行KNN算法來查找每個數據點周圍50個最近的鄰居。我在R中使用了FNN軟件包,但是由於我的數據集有大約2900萬行,所以需要很長時間。我想知道R中是否有可以並行運行KNN的軟件包。你有什麼建議與它的用途的例子?

    0熱度

    1回答

    我正在使用python中的KNN算法,並嘗試用MinMaxScaler標準化我的數據幀,以在0到1之間的範圍內轉換數據。 但是,當我返回輸出,我觀察到一些列最小/最大輸出超過1。我錯誤地使用它? 下面是我返回的最小值/最大值的一個片段: 代碼中使用是: kdd_data_10percent = pandas.read_csv("data/kdd_10pc", header=None, names

    0熱度

    2回答

    我是機器學習的新手,我試圖在KDD Cup 1999數據集上做KNN算法。我設法創建了分類器並預測了數據集,其準確率大約爲92%。 但我觀察到我的準確性可能不準確,因爲測試和訓練數據集是靜態設置的,並且可能因不同的數據集集而異。 那麼我該如何做N交叉驗證? 下面是我的代碼至今: import pandas from time import time from sklearn.neighbors

    3熱度

    1回答

    我想找到邊界決策函數來分類我的數據。這是他們的一個例子。 "Distance","Dihedral","Categ" 4.083,82.267,C 4.132,87.073,C 4.713,-80.999,C 3.427,-48.144,NC 3.663,96.994,C 3.99,71.919,C 3.484,78.684,C

    -1熱度

    1回答

    我需要實現KNN算法來分類數據。 我有一個測試矩陣(200 * 25)和一個火車矩陣(800 * 25)。 我需要找到kNN和它的精度matlab k = 1,3,5。 這是到目前爲止我的代碼,但我不知道: clc clear all close all train=load('Train.txt'); [rtrain,ctrain]=size(train); xtrain=zeros

    0熱度

    1回答

    我有一個程序,可以在已知的數據集上完美地工作,如乳腺癌威斯康星州的數據。我創建了一個新的數據集,其中包含100個城市當前的空氣壓力和股票價格的未來走勢。所以大約100個維度加上-1或1的分類器。大約有350個數據實例。該算法顯示大約80%的準確度。 我的問題是,當我輸入舊數據進行預測時,它只能預測1,而不是-1。當訓練數據包含-1分類器時,情況更是如此。任何想法都非常感謝!