본문 바로가기

computer vision25

jigsaw puzzle 을 이용한 self-supervised 이번에 소개할 논문은 Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles 를 이용한 self-supervised 논문입니다. 1. Self-Supervised Learning of Pretext-Invariant Representations(CVPR 2020) 이 논문은 input image와 patch들을 서로 비슷하게 해주도록 하는 것이 목표입니다. 그렇게 해주기 위해서 nce loss를 이용합니다. I' 은 negative sample인데, 여기선 다른 이미지의 feature를 뜻 합니다. s는 cosine similarity 입니다. Dn 은 데이터셋의 부분집합입니다. -log를 취해줌으로써 분모는 작게, 분자는 크게.. 2022. 7. 20.
Improving Robustness to Texture Bias via Shape-focused Augmentation(CVPR 2022) 1. Introduction 이 논문은 모델의 robustness를 키우기 위한 논문입니다. robustness를 키워서 out of domain에서 잘 작동을 하면, in domain에서의 성능이 어느 정도 떨어지는 점을 해결했습니다. 사람은 texture보다 shape을 중점으로 보는 것에 영감을 받아, shape-focused augmentation 방법을 제안합니다. texture bias를 줄일 뿐만이 아니라, shape bias에 더 집중을 할 수 있게끔 합니다. 2. Method 방법은 매우 간단합니다. original image에 각각 다른 augmentation 방법을 적용합니다. 그리고 segmentation model을 이용하여 foreground를 추출하고, 이를 이용하여 backg.. 2022. 6. 23.
DFT-based Transformation Invariant Pooling Layer for Visual Classification(ECCV 2018) 이 논문은 조금 오래된 논문입니다. 푸리에 변환을 이용한 논문에 요즘 관심이 있어서 읽었습니다. 1. Introduction 기존 모델은 conv 후에, fuly-connected layer(fc layer)를 이용합니다. 이는 shape / spatial 정보를 유지하고 있습니다. 하지만 이는 object의 위치나 크기에 영향을 받습니다. 이를 해결하기 위해, 당시에는 average pooling 을 이용합니다. resnet을 보면 알 수 있죠. 하지만 이는 channel 별로 평균을 내주기 때문에, spatial 한 정보를 잃어버립니다. average pooling은 translation에 강합니다. 그 이유는 h x w의 평균을 이용하기 때문입니다. 하지만 다른 패턴은 구별하지 못합니다. 이 문제점.. 2022. 6. 18.
ConvMAE: Masked Convolution Meets Masked Autoencoders(arxiv 2022) 1. Introduction 기존 MAE 같은 경우에는 computational cost가 높고 pretraing-finetuning discrepancy를 유발한다고 합니다. 이를 해결하기 위해서 convolution block의 정보 누출을 막아주는 masked convolution을 적용합니다. 또한 multi-scale feature를 제공하기 때문에, object detection과 segmentation의 성능도 올라간다고 말합니다. 2. method The Hybrid Convolution-transformer Encoder encoder의 구조는 총 3개의 stage로 이루어져 있습니다. convolution block은 self-attention 대신, 5 x 5 depthwise con.. 2022. 6. 10.
FedDG: Federated Domain Generalization on Medical Image Segmentation via Episodic Learning in Continuous Frequency Space(CVPR 2021) 이 논문은 Federated learning과 domain generalization을 합친 느낌입니다. Federated learning(FL)은 privacy를 지켜줄 수 있는 방법입니다. 서버에서 최근 모델을 불러와서, local client들이 자신들의 데이터로 모델을 학습합니다. 그 후에 서버에서는 client들의 파라미터 값을 합쳐서 모델을 업데이트합니다. 1. Introduction 기존 FL은 internal client에서 성능을 향상하는 것을 목적으로 합니다. 문제는 이렇게 하면 unseen domain에서 잘 작동을 하지 않습니다. 특히 medical에서는 scanner나 protocol이 다양하기 때문에 data distribution이 꽤 다를 수 있어서 문제가 됩니다. 이 논문은.. 2022. 5. 16.
A Fourier-based Framework for Domain Generalization(CVPR 2021) 1. Introduction 이 논문은 푸리에 변환을 이용한 data augmentation에 관한 논문입니다. 푸리에 변환은 이미지를 주파수 도메인으로 나타낼 수 있습니다. 이미지에서 주파수는 픽셀 값이 얼마나 빨리 변하는지를 의미합니다. 푸리에 변환에서 phase는 high-level statistic을 가지고 있고, amplitude 는 low-level statistic을 가지고 있습니다. 이 논문에서는 phase는 유지하고 amplitude를 바꿈으로써, semantic한 정보는 유지하면서 다른 domain의 데이터를 생성하도록 합니다. 또한 Co-teacher regularization을 통해 두 데이터 간의 class relationship을 유지시켜 줍니다. 2. Method 2.1 Fou.. 2022. 4. 15.