본문 바로가기

자기개발/Programming

머신러닝(Machine Learning) 기초 - 9 : 선형 회귀 분석(Linear Regression) - introduction

머신러닝의 사용 목적은 모델을 생성하여 실 데이터를 활용, 다른 입력값을 갖고 예측하는 데 있다.

가장 간단한 모델은 데이터 간 최적의 선(line)을 찾는것이며 수많은 데이터를 대표하는 선(line)을 찾는 것을 선형 회귀 분석 (Linear Regression)이라고 일컫는다.

최적의 선(line of best fit)을 찾게되면 새로운 입력값 (unknowns)이 입력되었을 때 결괏값(output)을 '예측'할 수 있게 되는데, 예로 

- 주택 시세와 면적 비교. 집 크기를 고려했을때 판매 가격 예측

- 국가 세율과 GDP의 관계. GDP 를 기준으로 그 나라의 세금률 예측

 

만약 야구 선수들의 키와 몸무게를 나타내는 그래프가 있다고 해보자

해당 그래프를 이용하여 데이터를 설명하기 위해서 라인을 그려보면

위와 같이 최적선(Line of best fit)을 그릴 수 있게 되는데, 이를 이용해 73인치의 키를 갖고 있는 선수의 몸무게를 예측할 수 있다 (143 lbs)

최적선은 '대략적인' 예측 기법으로 두 변수에 대한 선형 관계를 예측하는 데 사용된다.

이후 포스팅에서는 선형 회귀 분석 (linear regression)을 어떻게 활용하고 코드로 작성하는지에 대해 작성해보겠다.