일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- ConMatch
- mocov3
- simclrv2
- semi supervised learnin 가정
- GAN
- adamatch paper
- shrinkmatch paper
- UnderstandingDeepLearning
- tent paper
- Entropy Minimization
- Pseudo Label
- cifar100-c
- mme paper
- Pix2Pix
- CoMatch
- 최린컴퓨터구조
- conjugate pseudo label paper
- dcgan
- CGAN
- 컴퓨터구조
- BYOL
- dann paper
- Meta Pseudo Labels
- 딥러닝손실함수
- 백준 알고리즘
- CycleGAN
- SSL
- shrinkmatch
- WGAN
- remixmatch paper
- Today
- Total
Hello Computer Vision
비전공생의 On the Importance of gradients for detecting distributiomal shifts in the wild(2021) 논문리뷰 본문
비전공생의 On the Importance of gradients for detecting distributiomal shifts in the wild(2021) 논문리뷰
지웅쓰 2023. 12. 10. 17:17논문의 풀 제목은 On the Importance of gradients for detecting distributiomal shifts in the wild이고 논문에서는 GradNorm이라고 한다. 그러나 기존의 2018년에 GradNorm이라는 논문이 따로 존재해서 구분할 필요가 있다.
https://arxiv.org/pdf/2110.00218.pdf
Introduction
기존의 OOD task 논문들이 OOD score를 뽑아내는 방식은 model output/feature representation을 사용하는 경우가 주를 이루었다고 한다. 그러나 gradient space를 사용하는 경우는 없어서 저자는 이를 언급한다(gradient space라고 하니까 조금 어려워보이고 거부감이 드는데 읽어보니 어려운 개념은 아니었다. OOD score를 softmax를 활용하는 것이 아닌 어느 한 metric에 대하여 gradient로 score function을 삼겠다는 의미이다). 여기서는 Pre-trained network를 사용하며, softmax probability와 uniform 분포간의 KL divergence값에 대한 norm of gradient를 사용한다. ID 데이터는 한 클래스에 대해 높은 값을 보일 것이니 gradient가 작을 것이며, OOD 데이터는 gradient가 높을 것이다. 해당 논문에서의 contribution은 다음과 같다.
1. label agnostic한 gradient based OOD uncertainty estimation method 제시(GradNorm)
2. 여러 ablation study를 통한 gradient based 방법 이해
3. Gradient norm 을 분해함으로써 superiority 증명
Gradient-based OOD detection
우선 KL divergence는 다음과 같이 정의될 수 있다.
Formally, KL divergence는 probability distribution 인 p와 model-predicted distribution인 q에 대해 얼마나 가까운지 quantify할 수 있다고 한다.
여기서 첫번째 term은 softmax probability와 uniform분포간의 cross entropy를 계산한 것이다. 그리고 두번째 term은 상수이다. 이를 gradient로 나타내면 다음과 같다.
만약 데이터가 ID라면 해당 값은 높고, OOD라면 값이 낮다고 하며, 추가로 norm을 적용한다.
L1 norm을 사용하며, 다른 norm보다 더 좋았다고 한다. 그리고 추가적으로 수식을 분해하는데,
결국 U, V라는 vector로 분해할 수 있는데, U는 x의 feature vector의 norm을 나타내며, V를 보면 softmax와 비슷한 것을 확인할 수 있는데 논문에서 말하길 V characterizes information in the output space라고 말한다. 즉, 기존의 논문들에서 output space, feature 둘 중 하나만 고려했다면 해당 방법으로는 두가지 모두 고려하므로 더 좋다라는 말이다.
U, V를 각각 시각화해서 나타내본다면 각각의 ID, OOD 값들이 모두 차이를 보여줌을 알 수 있는데 이렇게 다 고려한다면 더 좋은 결과가 나오지않겠냐 라는 말 같다.
Result
물론 결과가 좋다.
'Out of Distribution' 카테고리의 다른 글
비전공생의 ReAct(2021) 논문리뷰 (0) | 2023.12.16 |
---|---|
비전공생의 GradOrth(2023) 논문 리뷰 (0) | 2023.12.12 |
비전공생의 Multi-Task Curriculum Framework for Open-set Semi-Supervised Learning (0) | 2023.12.09 |
비전공생의 SSD: A Unified framework for Self supervised outlier detection(2021) 논문 리뷰 (1) | 2023.11.15 |
비전공생의 CVT(2023) 논문 리뷰 (0) | 2023.11.15 |