semanticGAN에서 이 논문의 loss를 다루어서, 읽게 된 논문. 생각보다 인용이 많이 됐음.
1. Abstract
이 논문의 주제는 사람의 관점에서 이미지가 얼마나 비슷한지 어떻게 측정을 할까 입니다. 이 문제가 왜 어렵냐면, 이미지는 차원이 높고 서로 픽셀들이 연관이 있어서 기존의 distance 개념들을 사용하기 어렵습니다. 그리고 비슷하다는 개념이 애매합니다. 예를 들면, 빨간 원이 빨간 사각형이랑 비슷한지, 파란 원이랑 비슷한지 정의하기 어렵습니다.
이러한 점을 해결하기 위해 새로운 데이터셋을 제안하고, pretrain 된 모델을 이용하여 distance를 계산합니다.
2. method
데이터셋에 대해서는 다루지 않겠습니다.
채널마다 feature들을 normalize 해주고, 뺍니다. 그 후에, activation 으로 scale 해주고, l2 distance를 구합니다. 코드를 보니, w는 1x1 convolution으로 구현했네요.
perceptual한지 판단하기 위해 세 가지 variant를 고려합니다.
lin : pretrain 네트워크 가중치를 F 로 고정하고, linear weight w를 학습한다고 합니다. 예시로 VGG가 1472 파라미터만 학습을 한다고 하니까, 위 수식에서 w부분만 학습을 한다고 보면 될 것 같습니다.
tune: pretrain된 network를 들고와서 F를 fine tune을 한다고 합니다.
scratch : network를 random gaussian weight으로 초기화 후, 학습한다고 합니다.
이 세가지를 Learned Perceptual Image Patch Similarity(LPIPS)라고 한다고 하네요.