일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- BYOL
- Pix2Pix
- dann paper
- simclrv2
- cifar100-c
- Pseudo Label
- ConMatch
- dcgan
- remixmatch paper
- Meta Pseudo Labels
- adamatch paper
- 백준 알고리즘
- shrinkmatch
- CycleGAN
- SSL
- CoMatch
- 최린컴퓨터구조
- shrinkmatch paper
- WGAN
- mocov3
- tent paper
- UnderstandingDeepLearning
- CGAN
- semi supervised learnin 가정
- Entropy Minimization
- conjugate pseudo label paper
- GAN
- 딥러닝손실함수
- 컴퓨터구조
- mme paper
- Today
- Total
Hello Computer Vision
비전공생의 GradOrth(2023) 논문 리뷰 본문
해당 논문은 2023 NIPS에 억셉된 논문이고 기존 Gradient를 이용한 방식에 대하여 개선했다고 말한다. 풀 제목은 GradOrth: A Simple yet Efficient Out-of-Distribution Detection with Orthogonal Projection of Gradients
https://openreview.net/attachment?id=L9nTuSbAws&name=pdf
Introduction
OOD detection에서는 score function에 대하여 일정한 threshold를 두고(보통 TPR이 95%일 때) OOD인지 구분한다. 그리고 이 score function을 어떻게 정의하는지가 중요하다고 하며 기존의 model output, feature representation, gradient방식을 언급한다. 그리고 gradient 방식은 이 논문의 바탕이 되기도 하지만 문제점이라고 한다면 noisy하기 때문에 sub-optimal에 머무를 수 있다고 지적한다. 이 논문에서 제시하는 방식을 보면 다음과 같다.
옆에 잘 나와있지만 설명해보자면 단순히 loss에 대한 gradient인 v를 사용하는 것이 아니라 S_L 이라는 space를 정의하고 그 위에서 projection하는 것을 알 수 있다. 이루어진 각이 크다면 OOD, 작다면 ID인 것을 확인할 수 있다. 그리고 Gradient 에 대해서 분해하는 방식은 SVD를 사용한다고 한다.
GradOrth
가장 먼저 언급하는 것은 ID 의 subspace를 정의하는 것이 중요하다고 한다. 여기서는 ID데이터들에 대하여 network를 먼저 훈련시킨 후 마지막 layer의 feature들을 활용하여 space를 구성한다.
코드는 모르겠지만 설명은 굉장히 간단하다.
Result
여러 score function에 대하여 비교했을 때 성능이 좋은 것을 알 수 있다.