본문 바로가기

Develop/ML

로지스틱 회귀

로지스틱 회귀(영어: logistic regression)는 D.R.Cox가 1958년[1] 에 제안한 확률 모델로서 독립 변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는데 사용되는 통계 기법이다.


로지스틱 회귀의 목적은 일반적인 회귀 분석의 목표와 동일하게 종속 변수와 독립 변수간의 관계를 구체적인 함수로 나타내어 향후 예측 모델에 사용하는 것이다. 이는 독립 변수의 선형 결합으로 종속 변수를 설명한다는 관점에서는 선형 회귀 분석과 유사하다. 하지만 로지스틱 회귀는 선형 회귀 분석과는 다르게 종속 변수가 범주형 데이터를 대상으로 하며 입력 데이터가 주어졌을 때 해당 데이터의 결과가 특정 분류로 나뉘기 때문에 일종의 분류 (classification) 기법으로도 볼 수 있다.



뭔소린지 모르겠다.


여기저기 찾아서 쉽게 정리해보면 로지스틱 회귀는 선형 회귀와 비슷한 녀석인데

선형 회귀의 경우 의미가 있는 특정 값을 찾아주는 경우에 많이 사용할 수 있다.

연속적인 값에 대해서 연속적인 결과를 도출 해 내기 위한 방법이라고 볼 수 있다. 

하지만 이 경우 결과가 비연속적인 경우 이상한 모양을 보게 된다.


예를 들어

1. 공부한 시간과 시험 점수와의 관계(선형 회귀)

2. 공부한 시간과 시험에서 합격 여부와의 관계(로지스틱 회귀)


무슨 차이인지 보자.

1 의 경우 시간이 증가함에 따라 시험 점수가 상승하는 선형 관계를 보이는 것을 볼수 있다.

2 의 경우 합격(1), 불합격(0) 이라는 값으로 봤을 때 0과 1 사이에서 뚝 떨어져 있는 모습을 보게된다.

이런 경우는 선형으로 나타낼 수가 없다.

즉 Y(결과) 가 범주형(category) 변수일 경우에는 선형 회귀를 사용할 수 없다는 말이 된다.

(classification 이 필요한 경우. sigmoid 의 hypothesis에 사용)

또한 X 값이 무한히 커지거나 무한히 작아지는 경우에

해당 값에서 Y의 값은 0 또는 1이 어야 하기 때문에 학습에 큰 영향을 끼칠 수 있다.

(결과가 0 또는 1로 나와야 하는데, 만약 기준을 0.5라고 잡았을 때 0.5가 나오는 X 기준이 급격하게 달라지기 때문)


일반 적으로 로지스틱 회귀의 식은 다음과 같다.

이 식은 [-∞, ∞] 에서 [0, 1] 까지의 값을 갖게 된다.

즉, x 값이 무한대로 간다고 해도 1에 수렴하게 되며, 그렇게 커진 값에 대해서 영향이 작다.