Hello Computer Vision

비전공생의 ReAct(2021) 논문리뷰 본문

Out of Distribution

비전공생의 ReAct(2021) 논문리뷰

지웅쓰 2023. 12. 16. 18:10

OOD 분야의 ReAct논문을 리뷰해보려고 한다. 논문의 풀 제목은 ReAct: Out-of-distribution Detection with Rectified Activations 이다.

https://arxiv.org/pdf/2111.12797.pdf

 

 

Introduction

OOD는 현재 많이 진행되고 있는 주제 중 하나이며 2017년의 MSP논문을 시작으로 ODIN, GradNorm, Mahalanobis등 좋은 논문들이 쓰여지고 있다.저자는 이러한 연구들에서 중요한 발견을 하게 되는데, OOD 데이터들이 ID 데이터에 비해 더 큰 unit activation pattern을 일으킨다고 하며 다음 figure 를 보여준다.

일정한 threshold를 score function이 전에 적용한다면 ID, OOD를 효과적으로 구분할 수 있다는 쉽고 효율적인 아이디어를 제시한다. 우리가 흔히 아는 ReLU를 비슷한 방식으로 0이 아닌 다른 point에 지정했다고 이해하면 편하다. 이런 간단한 아이디어로 FPR95를(아닌 것을 맞다고 잘못 판단할 확률)이 55%에서  20%로 많이 감소했다고 한다. 저자가 말하는 contribution 은 다음과 같다.

1. We introduce ReAct —a simple and effective post hoc OOD detection approach that utilizes activation truncation. We show that ReAct can generalize effectively to different network architectures and works with different OOD detection methods including MSP, ODIN. and energy score.

2. We extensively evaluate ReAct on a suite of OOD detection tasks and establish a stateof-the-art performance among post hoc methods. Compared to the previous best method, ReAct achieves an FPR95 reduction of 25.05% on a large-scale ImageNet benchmark.

3. We provide both empirical ablation and theoretical analysis, revealing important insights that abnormally high activations on OOD data can harm their detection and how ReAct effectively mitigates this issue. We hope that our insights inspire future research to further examine the internal mechanisms of neural networks for OOD detection. Code and dataset will be released for reproducible research.

 

Method

우선 ID를 통해 pre-trained network를 훈련시키고(이 논문은 프레임워크를 제시하는 것이 아닌 단순 효율적인 방법을 제시하는 것뿐이다) input x에 대하여 m 차원의 vector가 나오게된다. 그리고 난 후 이 논문의 핵심이라고 할 수 있는 ReAct function을 제시한다.

여기서 h는 pre-trained network이고 c는 ReAct 함수에서 truncate 시키는 hyperparameter이다. 값 c는 TPR이 95%에 해당하는 값으로 정하는 것이 무난하다고 한다. ReAct 함수가 적용된 후 마지막으로는 OOD score function이 적용된다.

여기서는 쉽게 W, b를 이용하여 Linear function으로 나타냈는데, 굳이 score function을 콕집어서 하지 않은 이유는 어떤 score 이든 ReAct는 적용하기 쉽기 때문이고 성능도 좋기 때문이라고 생각한다(개인적인 생각). 

그리고 $\lambda$라는 값을 정해 score function에 대한 threshold를 정해 OOD 를 구분한다. S는 위에서 언급한 f이다. 

 

Result

결과를 보면 단순히 ID데이터에 대해서만 훈련했음에도 불구하고 성능이 좋은 것을 알 수 있다.

score function에 ReAct를 적용하면 성능이 오른 것을 확인할 수 있다.

 

추가로 해당 방법이 왜 작동하는지에 대한 이론적인 이유들을 저자는 언급하는데 이건 생략하려고 한다. 보통 OOD detection을 수행하기 위해서는 OOD data를 노출시키고, 해당 OOD space는 굉장히 크기 때문에 어려운 작업인데 이러한 작업 없이 좋은 성능을 달성한건 시사하는 바가 크다고 생각한다.