본문 바로가기
computer vision/Doamin Generalization

Reducing domain gap by reducing style bias(CVPR 2021)

by 하용권 2022. 3. 18.

1. Abstract

 CNN의 inductive bias는 image style(texture)를 중점으로 할 경우가 많습니다. 이 논문은 CNN의 intrinsic style bias를 줄여서 domain 사이의 gap을 가깝게 하는 것이 목접입니다. Style-Agnostic Networks(SagNets)는 class 정보로부터 style 인코딩을 분리하여 style biased 예측을 방지하고 content(class)에 좀 더 집중하도록 한다고 합니다.

2. Introduction

 사람은 content를 기준으로 사물을 인식합니다. 강아지가 art이든, 흑백이든, photo이든 저흰 다 구별을 할 수 있습니다.

하지만 CNN은 style에 중점을 두기 때문에, 인식을 잘 못합니다. 이러한 inductive bias를 제어하여 도메인이 달라지더라도 잘 인식을 할 수 있도록 하는 것이 SagNets의 목적입니다.

 

 이 모델은 content-biased와 style-biased network로 이루어져 있습니다. content-biased는 style을 randomizing하여 content에 좀 더 집중하게 하고, style-biased는 반대로 작동합니다. 또한 feature extractor가 어느 클래스에 속하는지 모르도록 속입니다. 

3. Method

3.1 Content-Biased Learning

 content-biased한 feature를 style randomization(SR)을 이용하여 학습합니다. 

 

SR을 하기 위해서 training image x하나와 랜덤으로 x'을 하나 선택해서 두 이미지의 feature(z, z')의 style 을 섞어줍니다.

그러기 위해서 AdaIN의 방법을 이용합니다.

z의 content는 유지하면서, z'의 style로 바꿔주는 역할을 하게 됩니다. 알파는 섞는 비율 입니다.

 

Gf는 feature extractor, Gc는 content-biased network입니다. k는 클래스 개수입니다. y는 {0,1} 입니다. 그냥 cross entropy 함수입니다.

 

3.2 Adversarial Style-Biased Learning

 

feature extractor로 encoding된 style은 어느 class에 속하는 지 몰라야 합니다.

식을 보면 앞이랑 반대인 것을 알 수 있습니다. 무작위로 뽑은 image의 feature z'을 z의 style과 섞어줍니다. 그러면 style은 z인데, content는 z'이게 됩니다.

앞이랑 다르게 feature extracotr는 학습을 하지 않습니다.

여기서 class를 잘 분류하지 못하도록 feature extractor를 학습하게 됩니다. 여기서 좀 신기했던 것은 원래 gradient flip같은 것으로 학습을 해주는 경우가 많은데, 그냥 uniform dstribution을 label로 씁니다. 이렇게 하는 경우가 수렴이 좀 더 안정적으로 된다고 합니다.

4. Experiment

 

반응형