我試圖用R中的knn(使用幾個包(knnflex
,class
))來根據8個變量預測違約概率。該數據集大約有8行的10萬行,但我的機器似乎在10K行的樣本上有困難。對數據集> 50行(即iris
)做任何建議?R knn大型數據集
編輯:
澄清有幾個問題。
1)在class
和knnflex
包的例子是有點不清楚,我很好奇,如果有類似的地方,你給它的變量,你要預測你要使用的隨機森林包和數據的一些實施訓練模式:
RF <- randomForest(x, y, ntree, type,...)
然後轉身和使用模型使用測試數據集的預測數據:
pred <- predict(RF, testData)
2)我真的不明白爲什麼要knn
賴寧g AND建立模型的測試數據。從我所知道的情況來看,該軟件包創建了一個矩陣〜nrows(trainingData)^2
,這似乎也是預測數據大小的上限。我使用5000行創建了一個模型(高於#我有內存分配錯誤),無法預測測試集> 5000行。因此,我需要兩種:
一)找到一種方法,在一次訓練中使用> 5000行設置
或
B)找到一種方法,使用該模型對全行10萬。
只是想知道,你最終設法推進這個 - 在訓練集大小方面? – ktdrv
@ktdrv:我相信我設法完成了完整的數據集。我會推薦'caret'包中的knn實現,原因有兩個。首先它允許調整'k'參數。其次,它是我使用的最快的knn模型,它允許並行化(儘管我沒有看到knn的巨大吸引力)。 下面是一組很好的解釋和例子,以啓動和運行:http://www.jstatsoft.org/v28/i05/paper – screechOwl