knn

0熱度

1回答

我正在使用scikit-learn的KNN迴歸器來將模型擬合到一個大型數據集中，其編號爲n_neighbors = 100-500。考慮到數據的性質，一些部分（想象：峯值等尖銳的delta函數）更適合於較少的鄰居（n_neighbors ~ 20-50），以便峯值不會被平滑掉。這些峯的位置是已知的（或可以測量）。有沒有辦法改變n_neighbors參數？我可以安裝兩個模型並將它們縫合在一起，但

1熱度

1回答

在K-Nearest算法（Java）中獲得最短的'K'距離

所以目前我有以下幾點，它通過從我的具有計算距離的「距離」數組中獲取最小距離值來找到最短/最近鄰居。然後它會進行另一次搜索來追蹤它的索引，然後向我指明它屬於哪個病人。但是，說我想找到3個最近的鄰居，我該怎麼做？我是否需要完全改變我的代碼以適應此？非常感謝 int min = 99; int d = 1; String diagnosis; //Finding sm

4熱度

1回答

Scikit-learn中KNN分類器中的網格搜索參數和交叉驗證數據集

我試圖使用SciKit-Learn來執行我的第一個KNN分類器。我一直在關注用戶指南和其他在線示例，但有幾件事我不確定。對於這篇文章，您使用以下 X =數據 Y =目標 1）在大多數的介紹，我讀過它似乎在說你想要一個訓練集，驗證集機器學習的網頁，和一套測試裝置。根據我的理解，交叉驗證允許您將訓練和驗證集合在一起以訓練模型，然後您應該在測試集上對其進行測試以獲得分數。但是，我在論文中看到，在很多情況

1熱度

1回答

優化海明距離Python

我有大約1M的二進制numpy數組，我需要讓漢明之間的距離找到de k-nearest-neighbors，我得到的最快速的方法是使用cdist，返回一個具有距離的浮點矩陣。因爲我沒有足夠的內存來獲得1Mx1M浮點數矩陣所以我做在這樣的時候一個元素： from scipy.spatial Import distance Hamming_Distance = distance.cdist(arr

1熱度

1回答

我該如何運行knn算法並行使用r進行多分類

我有一個多分類問題，我試圖運行KNN算法來查找每個數據點周圍50個最近的鄰居。我在R中使用了FNN軟件包，但是由於我的數據集有大約2900萬行，所以需要很長時間。我想知道R中是否有可以並行運行KNN的軟件包。你有什麼建議與它的用途的例子？

0熱度

1回答

sklearn中的MinMax Scaler沒有標準化0到1之間的列值

我正在使用python中的KNN算法，並嘗試用MinMaxScaler標準化我的數據幀，以在0到1之間的範圍內轉換數據。但是，當我返回輸出，我觀察到一些列最小/最大輸出超過1。我錯誤地使用它？下面是我返回的最小值/最大值的一個片段：代碼中使用是： kdd_data_10percent = pandas.read_csv("data/kdd_10pc", header=None, names

0熱度

2回答

如何在KNN python sklearn中進行N交叉驗證？

我是機器學習的新手，我試圖在KDD Cup 1999數據集上做KNN算法。我設法創建了分類器並預測了數據集，其準確率大約爲92％。但我觀察到我的準確性可能不準確，因爲測試和訓練數據集是靜態設置的，並且可能因不同的數據集集而異。那麼我該如何做N交叉驗證？下面是我的代碼至今： import pandas from time import time from sklearn.neighbors

3熱度

1回答

使用knn分類器的邊界決策

我想找到邊界決策函數來分類我的數據。這是他們的一個例子。 "Distance","Dihedral","Categ" 4.083,82.267,C 4.132,87.073,C 4.713,-80.999,C 3.427,-48.144,NC 3.663,96.994,C 3.99,71.919,C 3.484,78.684,C

-1熱度

1回答

查找K最近鄰居

我需要實現KNN算法來分類數據。我有一個測試矩陣（200 * 25）和一個火車矩陣（800 * 25）。我需要找到kNN和它的精度matlab k = 1,3,5。這是到目前爲止我的代碼，但我不知道： clc clear all close all train=load('Train.txt'); [rtrain,ctrain]=size(train); xtrain=zeros

0熱度

1回答

KNN只預測一個類。使用Python和sklearn

我有一個程序，可以在已知的數據集上完美地工作，如乳腺癌威斯康星州的數據。我創建了一個新的數據集，其中包含100個城市當前的空氣壓力和股票價格的未來走勢。所以大約100個維度加上-1或1的分類器。大約有350個數據實例。該算法顯示大約80％的準確度。我的問題是，當我輸入舊數據進行預測時，它只能預測1，而不是-1。當訓練數據包含-1分類器時，情況更是如此。任何想法都非常感謝！