왜 '로지스틱 회귀'를 사용하는가?
- 종속변수가 이항분포를 따르는 범주형(Categorical) 변수일 경우 사용하는 분류기법이다.
- 위의 경우, 일반적인 회귀분석을 적용할 수 없기 때문이다.
종류 일반 회귀모델 로지스틱 회귀모델 결과 종속변수(Y)의 범위 -∞ ~ +∞ 0 or 1 범위 불일치 독립변수/설명변수(X)의 범위 -∞ ~ +∞ -∞ ~ +∞ 범위 일치 일반선형회귀와 로지스틱 회귀의 차이
- 위의 경우, 일반적인 회귀분석을 적용할 수 없기 때문이다.
로지스틱 회귀의 원리
선형회귀에서는 회귀식을 \(Y = ax+b\) 라고 가정했다면, 로지스틱 회귀에서는 회귀식을 \(P(Y = 1)\) 로 가정한다.즉, \(P(Y = 1) = ax + b\) 이다.
위의 경우에서의 문제점은 서로 다른 범위를 가진 두 변수(종속/독립)를 하나의 함수로 연결지어야 한다는 점이다.
기존의 회귀모델을 사용해서는 이 문제점을 해결할 수 없으며
결국 두 변수의 범위를 일치시키는 과정이 로지스틱 회귀의 핵심이라고 볼 수 있다.
종속변수의 범위 바꾸기
- 이항(성공 / 실패) → 확률(0 ~ 1) : 로지스틱 함수[Logistic(Sigmoid) Function], Odds(승산)
- \( odds=\frac { P(A) }{ P({ A }^{ c }) } =\frac { P(A) }{ 1-P(A) } \)
- \( { P(A) } → 0 \) : \( odds → 0 \)
- \( {P(A)} → 1\) : \(odds → ∞\)
- 종속변수(\(odds\))의 범위가 \(0 \sim ∞\)로 바뀌게 된다.
- 하지만, 독립변수와 달리, 아직 음수에서 정의되지 않는다.
- '음의 무한대부터 양의 무한대까지'로 범위 확장하기
- \(log{(odds)} \)
- \(log\)를 취하게 되면, 종속변수의 범위가 음의 무한대 부터 양의 무한대로 확장된다.
로지스틱 회귀는 서로 다른 성질을 가진 두 변수를 하나의 회귀식으로 연결(Link)하는 문제이기 때문에, GLM의 한 종류라고 할 수 있다.
그리고 이 GLM에서 핵심적인 부분이 Link Function인데, 로지스틱 회귀의 Link Function이 바로 'Logistic / Sigmoid'함수이다.
2021.08.05 - [공부/ML] - GLM(Generalized Linear Models)
- 로지스틱 함수(Logistic Function; Sigmoid Function)
로지스틱 회귀에 대한 해석
- \(\log { (\frac { P(Y=1|X=\overrightarrow { x } ) }{ 1-P(Y=1|X=\overrightarrow { x } ) } ) } ={ \overrightarrow { \beta } }^{ T }\overrightarrow { x }\) 이 최종적으로 로지스틱 회귀모델의 식이 된다.
- 회귀 계수 벡터 \(beta\)의 의미
- 입력벡터 \(x\)의 첫번째 요소인 \(x_1\)에 대응하는 회귀계수 \(beta_1\)이 2.5로 나왔다고 한다면, \(x_1\)이 한단위 증가할 때, \((Y = 1)\)에 해당하는 로그 승산이 2.5 커지게 된다.
로지스틱 회귀의 결정경계(Decision Boundary)
- Q. 결정경계(Decision Boundary)란?
- 결정경계란, (이항)로지스틱 회귀에서 각 \(X\)에 해당되는 \(Y\)가 1로 분류 될지, 0으로 분류될지를 결정하는 경계라고 생각하면 된다.
- \(P(Y=1|X=\overrightarrow { x } )>P(Y=0|X=\overrightarrow { x } )\) 라면, '범주_1'로 분류 가능 할 것이다.
- 이를 치환, 정리하면
- \(p\left( x \right) >1-p\left( x \right)\)
\(\frac { p\left( x \right) }{ 1-p\left( x \right) } >1\)
\(\log { \frac { p\left( x \right) }{ 1-p\left( x \right) } } >0\)
\(\therefore { \overrightarrow { \beta } }^{ T }\overrightarrow { x } >0\) - 이를 시각화 하면,
- \(p\left( x \right) >1-p\left( x \right)\)
참고 : https://ratsgo.github.io/machine%20learning/2017/04/02/logistic/
'ML,DL' 카테고리의 다른 글
Optimization - Cross validation, Bias & Variance, Bootstrapping (0) | 2023.03.08 |
---|---|
Random Forests (0) | 2021.09.03 |
Underfitting & Overfitting (0) | 2021.08.26 |
Model Validation(모델 검증) (2) | 2021.08.21 |
경사하강법(Gradient Descent) (0) | 2021.08.14 |