如何在Logistic迴歸中查找Logistic/S形函數參數

我想估計在醫學數據邏輯迴歸中使用的S形/ logistic的最佳參數（最後提到：斜率和截距）。下面是我做了什麼蟒蛇：如何在Logistic迴歸中查找Logistic/S形函數參數

import numpy as np 
from sklearn import preprocessing, svm, neighbors 
from sklearn.linear_model import LinearRegression, LogisticRegression 
from sklearn.model_selection import train_test_split 
from sklearn import preprocessing, svm, utils 
from scipy.io import loadmat 
import pandas as pd

我有一個包含4列Apache.mat文件：Apache的分數（0-72），患者數，死亡人數，死亡人數的比例向數（比患者人數）

datamat = loadmat('Apache.mat') 
data = pd.DataFrame(np.hstack((datamat['apacheII'], datamat['NoPatients'], 
datamat['NoDeaths'], datamat['proportion']))) 

data.columns = ['apacheII', 'NoPatients', 'NoDeaths', 'proportion']

在這裏，我創建了數據框來處理。

x = np.array(data.drop(['NoPatients', 'NoDeaths', 'proportion'],1))

我已經放棄了不需要的列，現在只能用APACHEII評分在「X」

#scaling the data (normalizing) 
x = preprocessing.scale(x) 

y = np.array(data['proportion'])

離開現在，我已經使用LabelEncoder（）函數來編碼「Y」，因此它可以與LogisticRegression（）兼容。

lab_enc = preprocessing.LabelEncoder() 
encoded = np.array(lab_enc.fit_transform(y)) 

clf = LogisticRegression() 
clf.fit(x, encoded) 
print(clf.coef_) 
print(clf.intercept_)

輸出如下：

[[-0.49124107] 
[-0.23528893] 
[-0.19035795] 
[-0.30312848] 
[-0.25783808] 
[-0.37161079] 
[-0.12332468] 
[-0.16797195] 
[-0.05660718] 
[-0.21279785] 
[-0.22142453] 
[-0.10105617] 
[-0.14562868] 
[ 0.00991192] 
[-0.012247 ] 
[ 0.03206243] 
[ 0.07635461] 
[ 0.20951544] 
[ 0.12067417] 
[-0.03441851] 
[ 0.16504852] 
[ 0.09850035] 
[ 0.23179558] 
[ 0.05420914] 
[ 1.47513463]] 
[-1.79691975 -2.35677113 -2.35090141 -2.3679202 -2.36017388 -2.38191049 
-2.34441678 -2.34843121 -2.34070389 -2.35368047 -1.57944984 -2.3428732 
-2.3462668 -2.33974088 -2.33975687 -2.34002906 -2.34151792 -2.35329447 
-2.34422478 -2.34007746 -2.34814388 -2.34271603 -2.35632459 -2.34062229 
-1.72511457]

我只是想找出它通常用於Logistic迴歸S形函數的參數。我怎樣才能找到S形參數（即截距和斜率）？

這裏是S形函數（如果需要參考）：

def sigmoid(x, x0, k): 
    y = 1/(1 + np.exp(-k*(x-x0))) 
    return y

來源

2017-10-12 NAMAN SHUKLA

如果「比例」是連續變量，我認爲對於這個問題你應該尋找嶺迴歸而不是邏輯迴歸。 –

是的，你是正確的@GergesDib。謝謝。但在這裏，我只是試圖找出邏輯函數的參數，即使它不是最好的迴歸模型。任何幫助表示讚賞。 –

我想你已經找到了他們，他們是'lr.coef_'和'lr.intercept_'。有什麼問題？ –

這是多項式解決問題邏輯迴歸的正常行爲。查找there：

在多類的情況下，訓練算法使用一個VS-其餘（OVR）方案

intercept_是形狀（1）的問題時是二進制的。

例子：

>>> clf = LogisticRegression() 
>>> clf.fit([[1,2], [1,3], [0, 1]], [[0],[1],[0]]) 
>>> clf.coef_ 
array([[ 0.02917282, 0.12584457]]) 
>>> clf.intercept_ 
array([-0.40218649]) 
>>> clf.fit([[1,2], [1,3], [0, 1]], [[0],[1],[2]]) 
>>> clf.coef_ 
array([[ 0.25096507, -0.24586515], 
     [ 0.02917282, 0.12584457], 
     [-0.41626058, -0.43503612]]) 
>>> clf.intercept_ 
array([-0.15108918, -0.40218649, 0.1536541 ])

其實有一些模式，旨在解決不同的二進制問題。您可以合併第i個係數和第i個截距，並且您將獲得解決第i個二元問題的模型，並以此結束列表。

來源

2017-10-12 06:57:32

如何在Logistic迴歸中查找Logistic/S形函數參數

回答

相關問題