R-CNN의 단점 개선
기존의 RCNN방식과 SPP를 통해 개선된 방식
Bag of words(BoW)
영상에서 feature들을 뽑은 후, 이들 Feature들을 대표할 수 있는 값(code)들로 구성되는 코드북(codebook)을 생성.
코드북은 다수의 이미지들로부터 추출한 물체를 분류하는데 있어서 중요하다 생각되는 주요 feature들을 전체에 대해 클러스터링(k-means clustering)을 수행해 획득한 대표 feature들로 구성된다.
어떤 이미지 A가 있을 때, A로부터 feature들을 추출한 후 추출된 각각의 feature들에 대해 코드북 내에서 대응되는 가장 유사한 코드워드(codeword)를 찾는다. 그리고 코드워드들의 히스토그램(histogram)으로 이미지의 특징을 표현한다.
하지만 Bag of words 방법은 기본적으로 feature들의 히스토그램으로 이미지를 표현하기 때문에 feature간의 기하학적위치관계를 잃어버리는 문제점을 갖고있다.
Spatial pyramid Matching
이미지를 여러 단계의 장면으로 분할한 후 각 단계의 분할 영역마다 히스토그램을 구하여 이것들을 전체적으로 비교하는 방법.
Bag of words방법과는 다르게 추가적으로 이미지를 점진적으로 세분화해 가면서 분할 영역마다 히스토그램을 구해 이것들을 전부 모아 피라미드를 형성하고, 이렇게 형성된 히스토그램 피라미드를 서로 비교하며 두 이지 유사도를 측정하는 방식
이미지의 spatial 정보 유지 & 다른 featuer 레벨의 정보를 추출
SPP(Spatial pyramid Pooling)
CNN image classification에서 서로 다른 이미지의 크기를 고정된 크기로 변환하는 기법
오래전부터 컴퓨터 비전 영역에서 활용한 Spatial Pyramid Matching 기법에 근간을 둠