본문 바로가기
computer vision/Doamin Generalization

(MIRO) Domain Generalization by Mutual-Information Regularization with Pre-trained Models

by 하용권 2022. 4. 13.

이 논문은 kakao brain의 논문입니다. 수식이 좀 있습니다.

 

1. Introduction

 source domain만 이용하면, domain이 급격하게 변할 때 domain invariant한 representation을 학습할 수 없습니다. oracle model의 mutual information을 이용하여 이와 같은 문제를 해결합니다. oracle model에 대해서는 뒤에서 살펴보겠습니다.

 이 논문은 domain-invariant feature를 학습하는 대신에, "oracle" representation이랑 비슷한 feature를 배우도록 합니다. oracle model(어떤 도메인에서든 잘 작동하는 모델로 전 이해했습니다.)의 representation과 target model의 representation의 mutual informaion을 최대화하는 것이 목표입니다. 

하지만 oracle model은 현실적으로 불가능합니다. 그렇기 때문에 ImageNet 같은 데이터셋으로 미리 학습된 모델을 이용하여, 근사화합니다.

 

2. Method

f* 은 oracle model의 feature extractor입니다. 두 모델의 mutual information을 최대화 하는 것이 목표입니다.

 

mutual information의 lower bound는 이와 같습니다. q는 variational distribution입니다. 

 

이 과정을 통해 이와 같은 식이 나오게 됩니다.

 

KL divergence는 항상 양수이기 때문에, 이와 같은 lower bound가 나오게 됩니다.

 

하지만 앞에서 f*을 실제로 구하는 것은 불가능하다고 했습니다.

 

그래서 근사화하기 위해서

 

이와 같은 식을 이용합니다. f0는 pretrained model 입니다.  C는 constant입니다. 이 식의 유도과정은 논문의 appendix에 있습니다. 

d2의 값이 작다는 것은 true lower bound와 근사화한 것이 비슷하다는 것을 의미합니다. 

 

요약하자면,

E[logq(zf0|zf)] 부분을 최대화시키면, lower bound가 최대화됩니다.

 

아까 제일 위에 있던 식에 라그랑주 승수법을 적용하면, 이와 같은 objective function이 나옵니다.

 

라그랑주 승수법은

https://datascienceschool.net/02%20mathematics/05.02%20%EC%A0%9C%ED%95%9C%EC%A1%B0%EA%B1%B4%EC%9D%B4%20%EC%9E%88%EB%8A%94%20%EC%B5%9C%EC%A0%81%ED%99%94%20%EB%AC%B8%EC%A0%9C.html

 

5.2 제한조건이 있는 최적화 문제 — 데이터 사이언스 스쿨

.ipynb .pdf to have style consistency -->

datascienceschool.net

이 사이트를 보고 공부하면 좋습니다.

 

이 모델의 variational distribution은 가우시안 분포입니다. mean은 Zf의 평균, covariance는 Zf의 sum입니다.

최종 loss function입니다. 이 식이 왜 나왔는지는 이해를 못했습니다...

 

 

 

 

 

이 표는 oracle model와의 mutual information을 의미합니다. ERM- 는 random으로부터 fine-tuning한 것이고, ERM+는 imagenet과 instagram데이터로 학습한 모델(pre-trained)를 fine-tuning한 것입니다. MIRO가 제일 mutual information이 높은 것을 확인할 수 있습니다.

큰 모델이 좀 더 oracle model과 가깝다고 해석할 수 있습니다. b에서 fine-tuning한 것이 pre-trained 된 것보다 작은 것을 볼 수 있습니다. 이 부분이 좀 의외였습니다.

large model의 fine-tuning에 관한 논문도 있다고 합니다.

 

3. Experiment

 

 

반응형