일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 딥러닝손실함수
- shrinkmatch
- mme paper
- Pix2Pix
- tent paper
- UnderstandingDeepLearning
- CGAN
- SSL
- Pseudo Label
- remixmatch paper
- simclrv2
- dcgan
- BYOL
- mocov3
- Entropy Minimization
- CoMatch
- conjugate pseudo label paper
- shrinkmatch paper
- Meta Pseudo Labels
- WGAN
- dann paper
- GAN
- ConMatch
- 백준 알고리즘
- CycleGAN
- 최린컴퓨터구조
- semi supervised learnin 가정
- cifar100-c
- adamatch paper
- 컴퓨터구조
- Today
- Total
Hello Computer Vision
비전공생의 DICE:Leveraging Sparsification for Out-of-distribution Detection(2022) 본문
비전공생의 DICE:Leveraging Sparsification for Out-of-distribution Detection(2022)
지웅쓰 2023. 12. 17. 17:08해당 논문은 2022 ECCV에 억셉된 논문이다. 이전에 리뷰한 ReAct, ASH와 비슷한 결의 논문이며 소개하는 방법을 DICE(Directed Sparisification)라고 한다.
https://arxiv.org/pdf/2111.09805.pdf
Introduction
기존의 OOD 연구들은 score function에 대하여 많이 이루어져왔으며 sparsification는 경시되었다고 한다(여기서 sparsification에 대한 설명은 따로 나와있지 않지만 나온 내용들을 바탕으로 설명해보자면, sparse 자체가 '드문'이러한 의미를 가지고 있기 때문에 중요한 weight만을 선정해서 사용한다 이런 뜻으로 이해하면 편할 거 같습니다). 이 논문에서는 이러한 부분을 강조해서 OOD detection 문제를 해결하려고 한다. 이를 잘 설명해주는 figure는 다음과 같다.
h라는 m차원의 representation feature가 있을 때 기존의 방법은 해당 feature들을 모두 사용하여 class예측에 사용하였다면 DICE에서는 contribution(공헌도)이 가장 큰 vector들만 살려서 weight로 연결했다고 한다. 물론 이 연결은 C개의 class 각각 다 존재한다. key contribution은 다음과 같다.
1. We introduce DICE, a simple and effective approach for OOD detection utilizing post hoc weight sparsification. To the best of our knowledge, DICE is the first to explore and demonstrate the effectiveness of sparsification for OOD detection.
2. We extensively evaluate DICE on common benchmarks and establish competitive performance among post hoc OOD detection baselines. DICE outperforms the strong baseline by reducing the FPR95 by up to 12.55%. We show DICE can effectively improve OOD detection while preserving the classification accuracy on ID data.
3. We provide ablation and theoretical analysis that improves understanding of a sparsification-based method for OOD detection. Our analysis reveals an important variance reduction effect, which provably explains the effectiveness of DICE. We hope our insights inspire future research on weight sparsification for OOD detection.
Method
저자는 이러한 sparsification을 통해 adding irrelevant information to the output을 방지한다고 한다.
neural network를 통해 h라는 m차원의 벡터가 있다고 했을 때 이 벡터는 W라는 weight matrix를 통해 output이 나오게 된다(W는 m x C matrix). 논문의 핵심인 각 feature당 contribution이 큰지 알기 위해서 V 라는 matrix를 사용한다(W, V이렇게 matrix가 2개 나와서 조금 헷갈릴 수 있지만 그냥 W는 일반적으로 사용되는 weight Matrix이며 V는 이러한 W행렬 부분집합 안에서 sparsification 에 사용되는 행렬로 보면 된다).
여기서 h, w 간의 연산은 element wise 연산이다. 여기서 tok-k weights 를 선정하고, Masking matrix를 사용해 그 외 weights 들은 0으로 만든다. 이를 수식으로 나타내면 다음과 같다.
해당 방법은 post hoc방법이기 때문에 ID 분류에 대한 성능도 하락하지 않는다고 하며 f는 score function이며 여기서는 energy function을 사용한다고 한다.
Result
결과는 당연히 SOTA이다.
ASH, ReAct 와 더불어 꼭 읽어볼만한 논문이라고 생각한다.
'Out of Distribution' 카테고리의 다른 글
비전공생의 Extremely Simple Activation Shaping for Out-of-Distribution detection(2023) (1) | 2023.12.17 |
---|---|
비전공생의 ReAct(2021) 논문리뷰 (0) | 2023.12.16 |
비전공생의 GradOrth(2023) 논문 리뷰 (0) | 2023.12.12 |
비전공생의 On the Importance of gradients for detecting distributiomal shifts in the wild(2021) 논문리뷰 (0) | 2023.12.10 |
비전공생의 Multi-Task Curriculum Framework for Open-set Semi-Supervised Learning (0) | 2023.12.09 |