일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Pix2Pix
- cifar100-c
- 백준 알고리즘
- Entropy Minimization
- CoMatch
- 컴퓨터구조
- GAN
- Meta Pseudo Labels
- 최린컴퓨터구조
- conjugate pseudo label paper
- shrinkmatch
- mme paper
- dann paper
- shrinkmatch paper
- remixmatch paper
- CGAN
- adamatch paper
- ConMatch
- mocov3
- dcgan
- BYOL
- 딥러닝손실함수
- UnderstandingDeepLearning
- tent paper
- CycleGAN
- WGAN
- Pseudo Label
- semi supervised learnin 가정
- simclrv2
- SSL
- Today
- Total
Hello Computer Vision
MME(2019) 논문리뷰 본문
논문의 풀제목은 Semi-Supervised Domain Adaptation via Minmax Entropy이다
https://arxiv.org/pdf/1904.06487.pdf
Introduction
train 과정에서 훈련한 분포와 test 과정에서의 데이터가 iid가 아니라 다른 분포에서 샘플링됐다면 이는 성능 하락으로 이어 지기 때문에 이를 대처하는 것이 중요하다. SSDA에서는 많은 labeled source data, 약간의 labeled target data, 많은 unlabeled target data가 주어지고 gap을 줄이는 것을 목적으로 한다. 이 논문에서는 Minmax entropy minimization을 사용하여 이를 해결하려고 한다.
기존 방식과 비교를 한 것인데, 기존 방식들은 source 기준으로 많이 분류되었기 때문에 target data에 대해서는 틀린 것이 많지만 이 논문의 방식대로라면 target에 대해서도 잘 하는 것을 알 수 있다. 수행 방식은 prototype을 사용하는 것인데(수식으로 보면 w와 같은데, class를 결정하는 C x D차원의 벡터라고보면 될 거 같다, 따라서 각 클래스마다 D차원의 prototype이 있는 것이다), 저자는 domain invariant한 prototype이 있다고 가정하며 이는 source domain에 의해 결정될 것인데 그 이유는 source domain 에 대한 데이터가 많기 때문이다(물론 target unlabeled 데이터도 많겠지만 이는 클래스간 분류하는 학습에는 사용되지 않는다, 근데 pseudo label을 사용하면 사용할 수는 있는데 이 분야에서는 사용하지 않는듯 하다). 따라서 저자가 세운 가정의 prototype을 찾기 위해 이 prototype을 target 데이터가 있는 쪽으로 조금 옮길 필요가 있으며 이를 위해 사용하는 것이 Minmax entropy인 것이다.
Minimax Entropy Domain Adaptation
전체적인 프레임워크는 다음과 같다.
F는 encoder이며 C가 classifier인데 W로 표시되어 있으며 여기 포함된 D크기를 가지는 C개의 prototype이 있다. encoder를 통과한 각각의 feature 는 L2 정규화가 된 feature들이다. 위에서 말한 것처럼 prototype들은 source data들의 중심에 있을 것이며 이것을 target쪽으로 이동시키는 것이 목적이다. 따라서 labeled 데이터들에 대해서는 일반적으로 cross entropy를 사용해 분류하는 법을 배우면서 unlabeled target 데이터들에 대해서는 entropy maximization을 수행하여 prototype vector들이 uniform하는 분포를 가지도록 한다.
-> 만약 entropy maximization이 없다면은 labeled source 데이터들이 많기 때문에 한쪽으로 치우치는 현상이 일어날텐데 그것을 방지하는 거 같다. 그러나 단점으로는 그만큼 unlabeled 데이터가 분류하는데에는 도움을 주지 않고 오히려 악영향을 주는 것이다.
기존 DANN논문에서 잘 설명되어 있는 h-divergence를 여기서도 활용한다. 이 논문에서의 가정은 source data에 대한 risk는 target 보다 낮을 것이므로 다음과 같이 쓸 수 있다고 하며 상한이라고 볼 수 있다.
Result
코드를 살펴보면 약간 헷갈리는 부분이 Gradient reversarial 을 잘 찾아봐야한다. domain adaptation분야에서는 unlabeled에 대해서 많이 활용하지 않는데 최신 논문은 어떻게 활용할지 궁금하다.
'Domain Adaptation' 카테고리의 다른 글
APE(2020) 논문리뷰 (1) | 2024.03.14 |
---|---|
DANN(2016) 논문리뷰 (0) | 2024.03.12 |