Authors : Bengio, Y., Louradour, J., Collobert, R., & Weston, J.
Journal/Conference : ICML 2009
Source : https://dl.acm.org/doi/pdf/10.1145/1553374.1553380
Background
Animal training
- 학습과정(learning system)에서 어떤 예제들이 제공되고, 어떤 순서로 제공될 것인가에 대한 선택은 학습을 가이드해 줄 수 있으면서 학습의 속도를 저명히 증가시킬 수 있음.
- shaping이라 불림 (Skinner, 1958; Peterson, 2004; Krueger & Dayan, 2009)
Elman, J. L. (1993). Learning and development in neural networks: The importance of starting small
- 머신을 학습하는 과정에 curriculum을 적용
- 기본 아이디어 : 작은 것부터 시작해서 task의 쉬운 부분이나 쉬운 subtask를 학습하고, 점차 어려운 부분을 학습
- 반복 네트워크로 간단한 문법을 학습한 실험 결과, 문법 구조의 성공적인 학습이 문법에 대한 선천적 지식이 아니라 처음에는 꽤 복잡성이 제한된 아키텍처로 시작하는 것에 달려있다고 제안
Continuation method
- non-convex criteria를 잘 최소화하기 위한 최적화 전략
- non-convex criterion의 더 좋은 local minima를 찾는데 도움을 줄 수 있음
Unsupervised pre-training
- 기존에 임의의 값으로 초기화하던 모델의 가중치들을 비지도 기준을 사용한 다른 문제(task)에 학습시킨 가중치들로 초기화하는 방법
- 딥러닝을 학습하는 과정에서 2가지의 효과를 보임
- Better optimization
- Better regularization
Method
사람과 동물은 예제가 랜덤 하게 주어졌을 때 보다, 의미 있는 순서(점차 복잡하고 어려운 내용)로 주어졌을 때 학습을 더 잘한다고 한다.
위의 해당 학습 전략을 머신러닝에 적용시켜 정의한 게 "Curriculum Learning"이라 할 수 있다.
커리큘럼이나 작은 것부터 시작하는 전략이 머신러닝 알고리즘에 언제 그리고 왜 유용한지 명확히 밝히는 게 해당 논문의 주목적이다.
Continuation method
\( C_{\lambda}(\theta) \) : a single-parameter family of cost functions
$$ C_0(\theta) \rightarrow C_1(\theta) $$
Continuation method의 Basic Idea는 먼저 매끄러운 목표(smoothed objective)를 최적화하고 점진적으로 덜 매끄러운 목표를 고려하는 것이며, 문제에 대한 매끄러운 버전의 커리큘럼 학습이 global picture를 보여줄 수 있다 생각한다.
처음에 \( C_{0}(\theta) \)를 최소화하고 점진적으로 \( \lambda \)를 증가시키며 \( C_{\lambda}(\theta) \)의 local minimum을 찾는다.
\( C_{1}(\theta) \) 가 실제로 최소화하고 싶은 목적함수이고, \( C_{0}(\theta) \)는 \( C_{1}(\theta) \)의 매우 smooth 된 버전이라 할 수 있다.
Curriculum Learning
전체 데이터를 사용해서 학습을 한 번에 하는 것이 아니라, 일부 쉬운 데이터들부터 학습에 활용한다.
작은 쉬운 데이터들로 학습을 시작해 점차 늘려나가며 마지막에는 전체 데이터인 target training set으로 학습한다.
\( Q_{\lambda}(z) \propto W_{\lambda}(z)P(z) \space \forall z \) such that \( \int Q_{\lambda}(z)dz \) =1
\( Q_1(z) = P(z) \space \forall z \)
\( Q_{\lambda}(z) \) : training distribution at \( \lambda \)
\( z \) : random variable
\( P(z) \) : target training distribution
\( 0 \leq W_{\lambda}(z) \leq 1 \) : step \( \lambda \) 일 때 example \( z \)에 적용되는 weight
\( 0 \leq \lambda \leq 1 \) : 0부터 1까지 단조증가
\( W_1(z) \) = 1
\( Q_{\lambda} \) : distributions의 sequence
만약 \( Q_{\lambda} \)의 \( entropy \)가 증가하고, \( W_{\lambda}(z) \)가 단조증가하면 \( Q_{\lambda} \)를 "curriculum"이라 부른다.
training set의 다양성이 증가하면서 entropy는 증가하고, training set에 다양한 데이터들이 더해지므로 weight도 증가해야 한다.
\( H(Q_\lambda) < H(Q_{\lambda + \epsilon}) \space \forall\epsilon > 0 \)
\( W_{\lambda + \epsilon}(z) \geq W_\lambda(z) \space \forall z, \forall\epsilon > 0 \)
Experiment
실험에서의 training sets의 sequence는 항상 discrete로 다음 두 개의 set만 고려한다.
- A set of easy examples
- The target training set
실험은 도형을 3가지 class(사각형, 원(타원), 삼각형)으로 분류하는 모양 인식 task이다.
input으로 32 x 32 grey-scale 이미지를 사용했다.
여기서는 2가지 다른 데이터셋을 생성했다.
- BasicShapes : 정사각형, 원, 정삼각형
- GeomShapes : 직사각형, 타원, 삼각형
두 데이터셋의 차이점은 BasicShapes이 보다 모양의 다양성이 적다는 점이다.
즉, BasicShapes이 쉬운 데이터셋이라고 생각하면 된다.
실험의 Curriculum은 2-step으로 구성되어 있다.
- "switch epoch"에 도달하기 전까지 BasicShapes training set으로 학습한다.
- "switch epoch" 이후에는 GeomShapes training set으로 학습한다.
실험은 3 hidden layers neural network을 stochastic gradient descent로 학습했고,
총 epoch 256 중 switch epoch을 0, 2, 4, 8, 16, 32, 64, 128로 변경하며 성능을 확인했다.
switch epoch이 0인 경우는 curriculum 없이 GeomShapes으로만 학습한 것이다.
위의 실험 결과를 보면 쉬운 데이터셋인 BasicShapes로 전체 epoch의 절반인 128까지 학습한 경우가 가장 성능이 좋은 걸 볼 수 있다.
그리고 BasicShapes로 더 많은 epoch을 학습할수록 점차 성능이 좋아지는 것을 확인할 수 있었다.
Conclusion
여기서 제안한 curriculum learning의 2가지 효과(effect)가 있다고 가정.
- 학습과정에서 minimum으로의 수렴속도
- non-convex criteria 경우일 때, 얻어지는 local minima의 quality
convex criteria에서의 실험은 curriculum strategy가 global minimum으로의 수렴 속도를 빠르게 할 수 있음을 보였고,
non-convex criteria 학습의 어려움 상에서 다양한 셋업으로 curriculum learning을 실험해 봤을 때, 일반화(generalzation) 부분에서 상당한 향상을 보임.
해당 curriculum 전략이 머신러닝 관점에서 왜 그리고 어떻게 성공적으로 작용하는지에 대해 curriculum 전략의 잠재적인 이점을 설명하기 위해 다양한 가설을 제안했다.
- 학습하는 과정에서 데이터를 예측할 때 noisy 하거나 harder 한 문제에 대해 시간을 덜 버리기 때문에 학습속도가 빠르다. (faster training)
- parameter space 상에서 더 좋은 지역(regions)으로 이끈다. (guiding training)
잘 선택된 curriculum strategy는 parameter space 상에서 더 좋은 지역(regions)으로 이끈다는 점에서 continuation method처럼 행동할 수 있고,
curriculum strategy로 pre-training 하는 것은 같은 training error에 있어 더 작은 generalization error를 야기한다는 점에서 unsupervised pre-training와 유사하게 작용한다.
여기서는 쉬운 데이터에 대한 정의를 직접 지정했다. 즉, Curriculum을 유동적으로 정의하는 부분이 부족하다.
이 부분이 해당 알고리즘의 한계라고 할 수 있다.
Reference
'Data Science > Paper Review' 카테고리의 다른 글
[Paper Review] Self-Paced Curriculum Learning (1) | 2023.05.20 |
---|---|
[Paper Review] Self-Paced Learning for Latent Variable Models (0) | 2023.03.05 |
[Paper Review] N-BEATS (0) | 2022.03.28 |
[Paper Review] Transformer - Attention is all you need (0) | 2022.03.28 |
댓글