본문 바로가기

자기개발/Programming

머신러닝(Machine Learning) 기초 - 11 : 선형 회귀 분석(Linear Regression) - 오차(Loss)에 대해서

선(line)의 기울기 및 y 절편을 할당할 때 우리는 어떤 것이 최적인지에 대해 고려하고 정의해야 한다. 이때 사용되는 개념인 오차(Loss)는 에러(error)라고도 칭하며 각 데이터 포인트와 최적선(line of best fit)간 의 차이를 나타낸다.

 

오차(loss)는 한 지점(point)로 부터 최적선(line of best fit) 간 거리의 제곱으로 생각할 수 있으며 거리 제곱 (단순 거리 대신)를 실시하여 선 위와 아래의 포인트가 동일한 방식으로 총 오차(loss)에 기여하게 하는 방법이다.

 

 

A점과 B점 값을 모두 제곱하여 거리값을 구한다

위 예제에서는 :

* A 포인트, 제곱 거리는 9 (3²) 이며

* B 포인트 제곱 거리는 1 (1²)이다.

하여 해당 모델의 총합 오차(Loss)는 10이 되며 만일 동일한 데이터 분포에서 총합 오차(Loss)가 10 이하인 최적선(line of best fit)을 찾으면 새로운 모델이 기존 모델보다 더 '낫다'라고 할 수 있는 것이다.

 

이후 포스팅에서는 오차(loss) 개념을 활용하여 어떻게 코드로 작성하여 선형 회귀 분석법을 적용하는지에 대해 알아보겠다.