머신러닝
batch size 와 mini-batch size의 차이점
지웅쓰
2023. 4. 11. 13:52
공부하는 도중 두 용어가 나오는데 정확하게 정의하지 못하고 혼동되는 내 자신을 보며 이번에 정리해야겠다고 생각했다.
Batch size
모델이 학습할 때 이용할 데이터의 개수이다.
예를 들어 batch size가 64라고 한다면 한번 학습할 때마다 64개의 데이터를 사용해 학습한다. 따라서 배치사이즈가 클수록 한번에 많이 처리하는 만큼 총 학습속도는 빠를 수 있지만 메모리가(GPU) 부족할 수 있다.
Mini batch size
batch size가 모델이 1회 학습할 때마다 수행할 데이터의 개수라면 mini batch size는 그 데이터 개수를 한번에 처리하는 개수를 뜻한다. 예를 들어 batch size가 64고 mini batch size가 16이라면 16씩 4번에 걸쳐서 1회 학습한다는 의미이다. 이 역시 수치가 크면은 학습이 빠를 수 있지만 너무 크면 학습이 불안정하다.
두 하이퍼 파라미터는 모두 학습의 최적화를 위해 결정해야한다.
2013.4.12 수정)
이론상으로는 위에 적어놓은 정의가 맞지만 혼동해서 적는 경우가 있다고 합니다. 따라서 정확한 정의는 알아두고 논문을 읽을 때는 상황에 맞게 이해하면 될 거 같습니다.