사람의 시각체계는 시각인식 태스크에 고도화 되어있다.

machine에서 이러한 태스크는 매우 어렵다.

따라서 존재하는 다양한 객체들에게 유연하게 적용 가능한 확장성 있는 알고리즘을 만들어야 한다.

machine에서 시각체계를 구현하는 것에 대한 어려움

Viewpoint variation

객체의 자세를 바라보는 관점에 따라 픽셀값이 다르다.

Illumination

하나의 장면에 대해서도 조명은 각양각색이다.

Deformation

객체가 움직이게 되면 그에 따른 픽셀값도 변한다.

Occlusion

객체가 가려지게 되면 객체의 일부만 나타나게 되어 제대로 인식하기가 어렵다.

Background Clutter

객체가 배경과 거의 비슷하게 나타나는 현상

Intraclass variation

하나의 클래스 내에서도 다양한 종이 있다.

‘고양이’에 따라 생김새, 크기, 색, 나이가 각양각색이다. 고양이 라는 하나의 개념으로 모든 고양이의 다양한 모습들을 전부 소화해 내어야 한다.