데이터셋 구성
Training set
실제 학습에 사용되는 데이터(전체의 80%)
Validation set
학습 중간 중간에 사용되는 평가 데이터 (전체의 약 10%)
best performance model을 선택하는 데 사용됨
Test set
학습 과정에서는 절대 사용하지 않는 데이터 (전체의 약 10%)
내 모델이 실제 사용되는 상황에서 마주하는 데이터 >> 최종성능을 판단
validation set과 함께 사용하지 않는다!!
Weight Initialization
딥러닝 학습의 목표 : 좋은 weight의 값을 찾는 것
시작이 어떠한값이어도 좋은 weight에 도달할 수 있을까? >> NO
시작 값이 좋아야 학습도 잘된다.
특정 분포를 정해두고 해당 분포에서 sampling 한 값들을 weight의 초깃값으로 설정
좋은 분포를 설정하는 것이 좋은 시작값을 갖는 것 > 정규 분포를 이용 (평균은 0 , 표준편차의 값을 변경)
sampling 을 하기 때문에 기본적으로 딥러닝학습에는 random성이 존재