로지스틱 회귀라는 이름에 “회귀”라는 단어가 들어가지만 회귀가 아닌 분류(Classification) 모델입니다. 범주형 변수를 기준으로 분류를 하는 모델로서 분류 모델의 가장 기본적인 형태입니다. 우리가 학습해야 하는 수많은 task 중에는 연속형 데이터를 예측해야 되는 경우도 있지만 참 또는 거짓과 같이 수치가 아닌 범주를 예측해야 하는 경우도 있습니다. 가령, 어떤 의류회사에서 고객들의 데이터를 통해 고객이 구매를 할지 안 할지를 예측하고자 할때 우리의 타겟변수는 ‘구매’와 ‘비구매’ 2가지가 됩니다.
이와 같은 경우에 선형모델로만은 우리의 데이터에 fit한 모델을 찾아내기가 어렵습니다. 선형적인 모델은 ‘구매’, ‘비구매’라는 종속 변수의 범위를 넘어서까지 추정을 하기 때문입니다. 따라서, 선형의 관계식을 비선형적인 데이터의 분포에 적합할 수 있도록 변형이 필요하고 이러한 변형을 적용하여 모델링을 하는 것이 바로 로지스틱 회귀의 아이디어라고 할 수 있습니다.
binary classification tasks, there are only two possible outcomes (0 and 1)
regression equation has no limit on the generated value
allowed ranges of the input X and the output y do not match
$\hat{y} = \hat{\beta_0} + \hat{\beta_1}x_1 + \hat{\beta_2}x_2 + \hat{\beta_3}x_3 + ... + \hat{\beta_d}x_d$
$\hat{y}$ : 오직 0과 1만 허용
$\hat{\beta_0} + \hat{\beta_1}x_1 + \hat{\beta_2}x_2 + ... + \hat{\beta_d}x_d$ : 모든 실수값이 가능
Goal : Build a classification model that inherit the advantages of regression model(ability to find significant variables, explainability etc)
선형회귀식은 각 독립변수가 종속변수에 미치는 영향과 둘 사이의 관계를 설명할 수 있다는 장점이 있기 때문에 선형회귀식을 유지하면서 그 결과값이 binary class로 나오도록 하는 것이 로지스틱 회귀의 목적입니다.
결국, 로지스틱 회귀식을 산출하는 과정은 target값(\hat{y})의 범위와 선형결합식(linear combination)의 범위를 맞춰나가는 것이라고 볼 수 있습니다. 우리가 추정하고자 하는 종속변수의 값은 0과 1, 참과 거짓과 같이 2개이지만 이를 확률값으로 표현할 수도 있습니다. 가령, y가 1일 확률인 P(y=1)과 같이 말입니다. y를 확률로 표현함으로서 가능한 값의 범위는 binary class인 2개에서 0과 1사이의 실수 범위([0,1])로 확장이 됩니다. 그렇다고 하더라도 여전히 선형모델의 범위인 [-$\infty$ ~ +$\infty$]과는 여전히 차이가 발생하게 됩니다.
이때, 이 범위의 문제를 해결해주는 것이 바로 승산(odds)의 개념과 로짓변환(log transformation)입니다.
승산(odds)는 특정 사건이 발생할 확률과 발생하지 않을 확률의 비율을 의미합니다. 즉, odds는 P/(1-P)로 계산됩니다. 여기서 P는 특정 사건이 발생할 확률입니다.
예를 들어, 동전을 던졌을 때 앞면이 나올 확률이 0.6이라고 하면, 이 동전의 앞면 odds는 0.6/(1-0.6) = 1.5가 됩니다. 이는 앞면이 나올 확률과 뒷면이 나올 확률의 비율을 의미합니다. 따라서, 앞면 odds가 1.5라는 것은 앞면이 나올 확률이 뒷면이 나올 확률보다 1.5배 높다는 것을 나타냅니다.
로지스틱 회귀에서는 odds를 이용하여 독립 변수와 종속 변수 간의 관계를 모델링합니다. 종속 변수가 이진 변수인 경우, 로지스틱 회귀는 종속 변수의 odds를 설명하는 독립 변수의 가중합을 구하고, 이를 로짓 변환(logit transformation)하여 선형 회귀 모델을 적용합니다. 로짓 변환은 odds를 log(odds)로 변환하여 log(odds) 값이 선형적으로 관계될 수 있도록 합니다. 따라서, 로지스틱 회귀 모델에서는 독립 변수의 계수(coefficient)가 log(odds) 값에 대한 변화량을 나타내며, 이를 해석하여 각 독립 변수의 영향력을 파악할 수 있습니다.