semi supervised learning(준지도학습)에 사용되는 가정 및 방법

Notice

안녕하세요

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

Hello Data

semi supervised learning $준지도학습$ 에 사용되는 가정 및 방법 본문

Self,Semi-supervised learning

semi supervised learning $준지도학습$ 에 사용되는 가정 및 방법

지웅쓰 2023. 12. 25. 00:08

이번에 semi-supervised learning 을 공부함에 있어 사용되는 방법들을 조금 더 원론적으로 알아보려고한다.

$해당 내용은 Kevin.P.Murphy 의 Probabilistic Machine Learning에 있는 내용을 따랐습니다$

Semi supervised learning에서는 unlabeled데이터가 주로 사용된다. 따라서 우선 Pseudo label이라는 기법이 많이 사용된다. 해당 기법은 unlabeled데이터에 대하여 pseudo prediction 을 생성하는 기법이라고 할 수 있다. 물론 이 과정에서 confirmation bias가 생성될 수 있는데 이러한 bias에 대해서는 threshold가 많이 사용된다 $이것도 문제가 많다고 생각$ .

2024.02.14 수정) 단순히 unlabeled 데이터가 많아서 pseudo label을 사용하는 것이 아니다. 그러한 이유라면 self supervised learning에서도 pseudo label을 사용해야하지만 그렇지 않다. 사용하는 이유에 대해서는 틀려도 label 데이터로 보정할 수 있다는 것이 크다고 할 수 있다. 그리고 실험해본 결과 예측-보정의 과정을 반복해서 거친 pseudo label의 정확성은 꽤 높다. https://keepgoingrunner.tistory.com/215

Semi Supervised Learning에서 Pseudo label의 정확성

여러 Semi Supervised Learning $SSL$ 논문을 읽으면서 느꼈던 점은 "Softmax를 사용하는데 잘못된 클래스로 오분류하고 이 값이 threshold값을 넘으면 계속 오류가 나고 성능이 안좋아지지 않을까? " 라는 생

keepgoingrunner.tistory.com

pseudo label에 대해서 loss를 부과하는 방식은 entropy minimization이 사용된다. 해당 기법은 pseudo label에 대하여 high confidence 를 갖도록 하는 것이다. 즉 [0.6, 0.2, 0.2] 로 예측했고 threshold를 넘었으면 해당 예측값은 다음 예측에서 더 높아질 것이다. 그렇다면 이러한 Entropy minimization은 왜 잘 작동할까?

2024.02.14 수정) 잘 작동하는 것이 아니라 사용하는 이유에 대해서 먼저 알아봐야한다.

우선 semi supervised learning에서의 기본으로 사용되는 것은 cluster assumption으로 labeled 데이터들에 대해서만 cluster를 구성하는 것보다 unlabeled 데이터들을 이용하는 것이 cluster들을 더 잘 예측할 수 있고 decision boundary를 그을 수 있는 것이다. 그리고 이러한 decision boundary 는 low-density 에 위치하며 그 이유에 대해 예를 들어보자면 A, B cluster가 있고 decision boundary가 A 의 제일 외곽에 있는 데이터에 근접해서 그어진다면 이는 다른 데이터들에 대해서 오분류를 할 가능성이 높을 것이며 이는 high entropy prediction을 야기한다고 한다.

2024.02.14 수정) cluster assumption은 정확히 말하면 데이터들은 매니폴드 안에서 각각의 cluster를 구성하고 있다는 것이며 decision boundary 는 최대한 low density 한 곳에 그어질 것이라는 가정이다. 따라서 이러한 가정에 따르면 데이터셋의 entropy를 낮추는 방향으로 훈련한다면 cluster를 잘 구성할 수 있고 decision boundary 를 그을 수 있을 것이라는 기대에 시작한다.

추가로 manifold assumption이 있으며 이는 2개의 비슷한 데이터는 같은 manifold $cluster$ 에 있어야 하는 가정이며 이는 consistency regularization과 의미가 비슷하다고 볼 수 있다.

저작자표시 비영리 변경금지

'Self,Semi-supervised learning' 카테고리의 다른 글

SelfMatch $2021$ 논문리뷰 $0$	2024.02.14
Semi Supervised Learning에서 Pseudo label의 정확성 $0$	2023.12.29
비전공생의 Whitening for Self-Supervised Representation Learning $2021$ 논문리뷰 $1$	2023.12.19
비전공생의 FreeMatch $2023$ 논문리뷰 $1$	2023.12.18
비전공생의 FlexMatch $2021$ 논문리뷰 $1$	2023.12.17

'Self,Semi-supervised learning' Related Articles

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 $권한 있는 경우$	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Hello Data

Hello Data

semi supervised learning $준지도학습$ 에 사용되는 가정 및 방법 본문

semi supervised learning $준지도학습$ 에 사용되는 가정 및 방법

'Self,Semi-supervised learning' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

Hello Data

semi supervised learning준지도학습준지도학습에 사용되는 가정 및 방법 본문

semi supervised learning준지도학습준지도학습에 사용되는 가정 및 방법

'Self,Semi-supervised learning' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

semi supervised learning $준지도학습$ 에 사용되는 가정 및 방법 본문

semi supervised learning $준지도학습$ 에 사용되는 가정 및 방법