Hello Computer Vision

semi supervised learning(준지도학습)에 사용되는 가정 및 방법 본문

Self,Semi-supervised learning

semi supervised learning(준지도학습)에 사용되는 가정 및 방법

지웅쓰 2023. 12. 25. 00:08

이번에 semi-supervised learning 을 공부함에 있어 사용되는 방법들을 조금 더 원론적으로 알아보려고한다.

(해당 내용은 Kevin.P.Murphy 의 Probabilistic Machine Learning에 있는 내용을 따랐습니다)

 

Semi supervised learning에서는 unlabeled데이터가 주로 사용된다. 따라서 우선 Pseudo label이라는 기법이 많이 사용된다. 해당 기법은 unlabeled데이터에 대하여 pseudo prediction 을 생성하는 기법이라고 할 수 있다. 물론 이 과정에서 confirmation bias가 생성될 수 있는데 이러한 bias에 대해서는 threshold가 많이 사용된다(이것도 문제가 많다고 생각).

2024.02.14 수정) 단순히 unlabeled 데이터가 많아서 pseudo label을 사용하는 것이 아니다. 그러한 이유라면 self supervised learning에서도 pseudo label을 사용해야하지만 그렇지 않다. 사용하는 이유에 대해서는 틀려도 label 데이터로 보정할 수 있다는 것이 크다고 할 수 있다. 그리고 실험해본 결과 예측-보정의 과정을 반복해서 거친  pseudo label의 정확성은 꽤 높다. https://keepgoingrunner.tistory.com/215

 

Semi Supervised Learning에서 Pseudo label의 정확성

여러 Semi Supervised Learning(SSL) 논문을 읽으면서 느꼈던 점은 "Softmax를 사용하는데 잘못된 클래스로 오분류하고 이 값이 threshold값을 넘으면 계속 오류가 나고 성능이 안좋아지지 않을까? " 라는 생

keepgoingrunner.tistory.com

 

 

pseudo label에 대해서 loss를 부과하는 방식은 entropy minimization이 사용된다. 해당 기법은 pseudo label에 대하여 high confidence 를 갖도록 하는 것이다. 즉 [0.6, 0.2, 0.2] 로 예측했고 threshold를 넘었으면 해당 예측값은 다음 예측에서 더 높아질 것이다. 그렇다면 이러한 Entropy minimization은 왜 잘 작동할까?

2024.02.14 수정) 잘 작동하는 것이 아니라 사용하는 이유에 대해서 먼저 알아봐야한다.

 

우선 semi supervised learning에서의 기본으로 사용되는 것은 cluster assumption으로 labeled 데이터들에 대해서만 cluster를 구성하는 것보다 unlabeled 데이터들을 이용하는 것이 cluster들을 더 잘 예측할 수 있고 decision boundary를 그을 수 있는 것이다. 그리고 이러한 decision boundary 는 low-density 에 위치하며 그 이유에 대해 예를 들어보자면 A, B cluster가 있고 decision boundary가 A 의 제일 외곽에 있는 데이터에 근접해서 그어진다면 이는 다른 데이터들에 대해서 오분류를 할 가능성이 높을 것이며 이는 high entropy prediction을 야기한다고 한다. 

2024.02.14 수정) cluster assumption은 정확히 말하면 데이터들은 매니폴드 안에서 각각의 cluster를 구성하고 있다는 것이며 decision boundary 는 최대한 low density 한 곳에 그어질 것이라는 가정이다. 따라서 이러한 가정에 따르면 데이터셋의 entropy를 낮추는 방향으로 훈련한다면 cluster를 잘 구성할 수 있고 decision boundary 를 그을 수 있을 것이라는 기대에 시작한다. 

 

추가로 manifold assumption이 있으며 이는 2개의 비슷한 데이터는 같은 manifold(cluster)에 있어야 하는 가정이며 이는 consistency regularization과 의미가 비슷하다고 볼 수 있다.