ML,DL/Statistics

GLM(Generalized Linear Models)

BKM 2021. 8. 5. 16:46

GLM이란? 

GLM이란 종속변수 y의 error term이 정규분포가 아닌 다른 분포를 가지는 경우를 포함하는 여러가지 모델들을 아우르는 표현이다. GLM은 Linear Regression, Logistic Regression, Poisson Regression을 포함한다.

 

GLM의 model들은 y와 x의 관계가 선형이 아니더라도 'Link Function'을 통해서 선형관계를 만들어 줄 수 있다. 이 경우, y에 대한 error term은 정규분포가 아니어도 괜찮다. 특히, error term이 'exponential family distribution'을 가지고 있는 경우를 가정하는데, 이러한 경우에도 linear model을 일반화 시킬 수 있어야 하므로 'Generalized Linear Models'라고 할 수 있다.

 

GLM을 사용해야 하는 이유

  1. y와 x가 non-linear한 경우
    예를 들어, 밑의 그림과 같이 y와 x의 관계가 exponential인 경우
  2. y의 error term의 분산이 일정하지 않은경우 = 이분산성(Heteroskedasticity)를 띄는 경우
  3. 종속변수가 continuous하지 않고 discrete/categorical한 경우

Linear Regression Model은 위와 같은 경우에는 사용하기 적합하지 않다.

GLM의 가정

  1. 독립적이고 무작위 추출된 데이터이어야 한다. 
  2. y의 분포가 정규분포일 필요는 없지만, exponential family(possion, binomial, multinominal, normal)로 부터의 분포여야 한다.
  3. 최초의 y는 x와 선형관계를 갖지 않아도 되지만, transformed y는 x와 선형관계를 가져야 한다.
  4. 반드시 동분산성을 만족하지 않아도 된다.
  5. 오차항은 독립적이어야하지만 정규분포를 갖지 않아도 된다.

GLM의 구성요소

  1. Systemic Component/Linear Predictor
    - 회귀계수와 설명변수(predictor)의 단순 조합
  2. Random Component/Probability Distribution
    - y(종속변수)의 확률분포
    - 각 확률 분포에 해당 하는 Link Function
    Probability Distribution Link Function
    Normal Distribution Identity Function
    Binominal Distribution Logit/Sigmoid Function
    Poisson Distribution Log Function
  3. Link Function
    - Systemic Component와 Random Component를 이어 주는 역할. Response Variable(y)의 값이 Predictor(x)의 값과 어떻게 연결이 되어있는지에 대한 정보를 담고 있다.

GLM의 종류

  • Linear Regression(선형회귀) ; y값이 정규분포를 갖는 연속변수인 경우
    - Simple Linear Regression : 설명변수(predictor)가 1개인 경우
    - Multiple Linear Regression : 설명변수(predictor)가 2개 이상인 경우
    * Predictor(X)는 연속형변수가 아닐수도 있지만, Response(Y)의 경우는 연속형변수여야 한다.
  • Binary Logistic Regression(이항 로지스틱 회귀); y값이 이항분포를 띄는 이분법적 결과를 가질 경우
    -  β0+β1X1+β2X2 = Log odds → Link Funtion(Logit / Sigmoid) → Output(0 or 1)
    - X변수(Predictor)는 연속형 변수일수도, 이산형 변수일수도, 범주형 변수일수도 있다.
    Image source: https://en.wikipedia.org/wiki/Sigmoid_function
  • Poisson Regression
    - β0+β1X1+β2X2 = log(λ) → Link Funtion(Logit / Sigmoid) → Output(한 단위의 시간이나 공간에서 어떠한 사건이 일어나는 경우 : Y)
    - "λ" : 한 단위의 시간이나 공간에서 어떠한 사건이 일어나는 경우(Y)의 평균 횟수

Genealized Linear Models vs General Linear Models

  • General Linear Model은 일반적인 Linear Regression Model과 같다고 보면 된다.
  • Generalized Linear Model은 General Linear Model(Linear Regression Model)뿐 아니라 위에서 언급한 여러가지 다른 모형들 역시 포함하고 있는 포괄적인 개념으로 이해하면 될 것이다.

Reference

https://www.mygreatlearning.com/blog/generalized-linear-models/