要分類的連續變量,我用用下面的代碼如何將分箱結果應用於原始數據?
german<-read.csv("http://freakonometrics.free.fr/german_credit.csv", header=TRUE)
F=c(1,2,4,5,7,8,9,10,11,12,13,15,16,17,18,19,20,21)
for(i in F) german[,i]=as.factor(german[,i])
str(german)
german_interval<-classIntervals(german$Duration.of.Credit..month., n=4 ,style = "equal")
german_interval
合併的結果是如下像素合併。
style: equal
one of 4,960 possible partitions of this variable into 4 classes
[4,21) [21,38) [38,55) [55,72]
554 359 73 14
所以,我想改變值4 < = X < 21 = 1,21 < = X < 38 = 2,38 < = X < 55 = 3,55 < = X < 72 = 4 。 那麼,如何在原始數據中應用這個值?
另外,如果您看到原始數據,則有目標變量。這是一種可信度。而且,我想知道目標變量與每個部分的比率。具體而言,[4,21] = 0:?%/ 1:?%,[21,35] = 0:?%,1:?%。如何做到R代碼?
可信度是一個因素變量,具有兩個級別:「0」和「1」。你是在尋求某種東西與某種東西的比例,但是這兩個「東西」究竟是什麼都不清楚。我認爲你需要更具體的關於需要計算的更多人會和我一起問這個問題,因爲缺乏明確性。 –