선(line)의 기울기 및 y 절편을 할당할 때 우리는 어떤 것이 최적인지에 대해 고려하고 정의해야 한다. 이때 사용되는 개념인 오차(Loss)는 에러(error)라고도 칭하며 각 데이터 포인트와 최적선(line of best fit)간 의 차이를 나타낸다.
오차(loss)는 한 지점(point)로 부터 최적선(line of best fit) 간 거리의 제곱으로 생각할 수 있으며 거리 제곱 (단순 거리 대신)를 실시하여 선 위와 아래의 포인트가 동일한 방식으로 총 오차(loss)에 기여하게 하는 방법이다.
위 예제에서는 :
* A 포인트, 제곱 거리는 9 (3²) 이며
* B 포인트 제곱 거리는 1 (1²)이다.
하여 해당 모델의 총합 오차(Loss)는 10이 되며 만일 동일한 데이터 분포에서 총합 오차(Loss)가 10 이하인 최적선(line of best fit)을 찾으면 새로운 모델이 기존 모델보다 더 '낫다'라고 할 수 있는 것이다.
이후 포스팅에서는 오차(loss) 개념을 활용하여 어떻게 코드로 작성하여 선형 회귀 분석법을 적용하는지에 대해 알아보겠다.