2.1 분류와 회귀

분류

미리 정의된 , 가능성 있는 여러 클래스 레이블 중 하나를 예측하는 것

예를 들어 이진분류와 같은 경우, true/false로 예측

회귀

연속적인 숫자, 부동소수점 수를 예측하는 것

예를 들어 연소득을 예측하는 경우, 출력에 확연한 연속성이 있으므로 회귀문제이다

출력 값에 연속성이 있는지 따져보았을 때 예상 출력값 사이에 연속성이 있다면 회귀문제이다.

일반화, 과대적합, 과소적합

모델이 처음 보는 데이터에 대해 정확하게 예측할 수 있다면 이를 훈련 셋에서 테스트 셋으로 일반화 되었다고 한다. 따라서 모델을 만들 때에는 가능한 정확하게 일반화되도록 해야한다.

알고리즘이 새로운 데이터를 잘 처리하는 지 측정하는 방법은 테스트 셋으로 평가해보는 것 밖에 없다.

과대적합

모델이 훈련셋의 각 샘플에 너무 가깝게 맞춰져서 새로운 데이터에 일반화되기 어려울 때 일어난다.