1. Introduction
이 논문은 푸리에 변환을 이용한 data augmentation에 관한 논문입니다. 푸리에 변환은 이미지를 주파수 도메인으로 나타낼 수 있습니다. 이미지에서 주파수는 픽셀 값이 얼마나 빨리 변하는지를 의미합니다.
푸리에 변환에서 phase는 high-level statistic을 가지고 있고, amplitude 는 low-level statistic을 가지고 있습니다.
이 논문에서는 phase는 유지하고 amplitude를 바꿈으로써, semantic한 정보는 유지하면서 다른 domain의 데이터를 생성하도록 합니다. 또한 Co-teacher regularization을 통해 두 데이터 간의 class relationship을 유지시켜 줍니다.
2. Method
2.1 Fourier-based data augmentation
이 식은 이미지의 푸리에 변환 식입니다.
A는 amplitude, P는 phase입니다. 이미지 각 채널의 phase와 amplitude를 구합니다.
기존 방법들은 low frequency 부분의 일정 부분을 섞어줬습니다. 그게 위 그림의 (a) AS 입니다. 이 방법의 문제점은 middle, high frequency에 대해서 overfit이 일어난다고 합니다.
그래서 이 논문은 (b) AM 방법처럼 전체를 섞어서 data augmentation을 합니다.
다른 domain의 이미지의 amplitude와 섞어줍니다.
섞은 amplitude와 기존 이미지의 phase를 이용하여 푸리에 변환을 구하고, 이를 다시 inverse해서 데이터를 복원합니다.
2.2 Co-teacher Regularization
위 방법에도 문제점이 존재합니다. 말을 augment했다면, augment한 데이터가 기린에 더 가깝다고 모델은 판단할 수 있씁니다. 이러한 문제를 막기 위해서 dual consistency loss로 explicit constraint를 추가해줍니다.
EMA 방법을 통해 teacher model을 업데이트 해줍니다. teacher모델은 따로 학습하지 않습니다.
또한, 이 식을 이용하여 augment한 데이터와 original 데이터의 예측 값을 서로 비슷하게 해줍니다.
전 사실 여기서 왜 teacher모델을 도입했는 지 잘 이해가 안갔습니다.
최종 loss는 이와 같습니다.
3. Experiment
teacher까지 이용했을 시에, 성능이 가장 높은 것을 확인할 수 있습니다.
phase를 이용하여 학습한 것이 전체적으로 성능은 더 좋습니다. 이는 phase가 smentic한 정보를 포함하고 있고, amplitude는 semantic한 정보가 적다는 것을 확인할 수 있습니다.
신기하게도 phase에서 photo에서는 성능이 좀 낮은 것을 확인할 수 있씁니다. photo domain은 amplitude한 정보도 필요하다는 것을 의미합니다.
CV에서 basic한 것을 이용하여 하는 논문이라 재미있게 봤습니다. AI 모델 뿐만이 아니라, CV에 대한 공부도 중요한 것 같습니다.