Authors : Jiang, L., Meng, D., Zhao, Q., Shan, S., & Hauptmann, A.
Journal/Conference : AAAI
Source : https://ojs.aaai.org/index.php/AAAI/article/view/9608
Background
Curriculum Learning(CL)
- 학습과정에서 쉬운 데이터부터 점차 어려운 데이터 학습
- curriculum(학습 순서) : 사전 지식으로 결정되고, 고정되어있음
- 그러므로 학습 과정에서의 피드백은 무시된 상태로 사전 지식의 퀄리티가 매우 중요함
- 다양한 sources로 부터 사전지식을 포함하여 유연함을 가진다는 장점
Self-Paced Learning(SPL)
- 학습과정에서 쉬운 데이터부터 점차 어려운 데이터 학습
- curriculum(학습 순서) : 학습과정에서 학습 순서가 유동적으로 결정 (Loss 기준으로)
- 사전 지식을 학습에 통합하는 데 제한이 있어 과적합되기 쉬움
Method
CL과 SPL를 하나로 묶은 framework 제안함 (서로의 장점을 묶은)
CL을 "instructor-driven", SPL을 "student-driven"이라 표현하면
Self-Paced Curriculum Learning(SPCL)은 "instructor-student-collaborative" learning model라고 할 수 있다.
다음 식을 통해 최적화를 진행한다.
- \( v = [v_1,v_2,...,v_n]^T \) : sample의 중요도를 반영하는 weight
- \( f \) : self-paced function (learning scheme을 조절)
- \( \Psi \) : 미리 정해진 커리큘럼의 정보를 인코딩하는 실현 가능한 영역(feasible region)
curriculum은 다음과 같이 수학적으로 묘사될 수 있다.
Definition 1 (Total order curriculum)
학습 샘플 \( X={x_i}^n_{i=1} \)에 대해서 total order curriculum이나 curriculum for short는 다음과 같은 ranking function으로 표현될 수 있다.
- \( \gamma(x_i) < \gamma(x_j) \) : 학습과정에서 \( x_i \)가 \( x_j \)보다 먼저 학습되야하는 걸 표현
- \( \gamma(x_i) = \gamma(x_j) \) : 학습과정에서 두 샘플에 대해 선호되는 학습 순서는 따로 없는 걸 표현
Definition 2 (Curriculum region)
학습 샘플 \( X={x_i}^n_{i=1} \)와 그들의 weight variables \( v = [v_1,v_2,...,v_n]^T \)에 대해서 미리 결정된 curriculum \( \gamma(.) \) 가 주어진 경우, 다음 조건을 만족하면 feasible resion \( \Psi \)은 \( \gamma \)의 curriculum region이라 불려진다.
- \( \Psi \)는 nonempty convex set
- \( \int_{\Psi}v_i dv \)가 \( \Psi \) 안에서 \( v_i \)의 기댓값(expectation)을 계산한다고 했을 때, 샘플의 어떤 \( x_i, x_j \)쌍에 대해서 \( \gamma(x_i) < \gamma(x_j) \)이면, \( \int_{\Psi}v_i dv > \int_{\Psi}v_j dv \)를 보장한다.
유사하게 \( \gamma(x_i) = \gamma(x_j) \)이면, \( \int_{\Psi}v_i dv = \int_{\Psi}v_j dv \)이다.
Definition 3 (Self-paced function)
다음 3가지 조건을 만족하는 \( f(v; \lambda) \)를 self-paced function이라 부름
- \( v \in [0,1]^n \)에 대해서 \( f(v; \lambda) \)가 convex
- \( v_i,l_i \)를 제외하고 모든 변수가 고정되어 있을 때, \( v_i^* \)가 \( l_i \)에 따라 감소하고, \( lim_{l_i->0}v_i^*=1 \), \( lim_{l_i->\infty}v_i^*=0 \)
- \( \sum_{i=1}^n v_i \)가 \( \lambda \)에 따라 증가하고, 모든 \( i \in [1,n] \)에 대해서 \( lim_{\lambda->0}v_i^*=0 \), \( lim_{\lambda->\infty}v_i^*=1 \)
where \( v^* = argmin_{v \in [0,1]^n} \sum v_i l_i + f(v;\lambda ) \), \( v* = [v_1^*, v_2^*, ..., v_n^*] \)
- \( v = [v_1,v_2,...,v_n]^T \) : 각 training sample의 weight vector
- \( l = [l_1,l_2,...,l_n]^T \) : 해당하는 loss
SPCL Implementation
특정 문제들을 해결할 수 있는 구체적인 self-paced functions과 curriculum regions을 제안
Curriculum region implementation
Theorem 1
- training sample \( X={x_i}_{i=1}^n \)에 대해서, 정의된 curriculum \( \gamma \)가 주어졌을 때 feasible region \(\Psi = \{ v|a^Tv \leq c \} \)가 다음 조건을 만족하면 \( \gamma \)의 curriculum region이다.
- \( \Psi \wedge v \in [0,1]^n \)은 nonempty
- 모든 \( \gamma(x_i) < \gamma(x_j) \)에 대해서 \( a_i < a_j \), 모든 \( \gamma(x_i) = \gamma(x_j) \)에 대해서 \( a_i = a_j \)
Self-paced function implementation
self-faced function은 구체적인 loss functions과 독립적으로 regularization term으로 실현되고, 다양한 문제들에 쉽게 적용될 수 있다.
SPCL은 다른 문제들에 대해 다른 learning schemes을 활용할 수 있다.
Binary scheme
Linear scheme
in which \( \lambda>0 \)
Logarithmic scheme
Mixture scheme
Reference
'Data Science > Paper Review' 카테고리의 다른 글
[Paper Review] Self-Paced Learning for Latent Variable Models (0) | 2023.03.05 |
---|---|
[Paper Review] Curriculum Learning (2) | 2023.03.02 |
[Paper Review] N-BEATS (0) | 2022.03.28 |
[Paper Review] Transformer - Attention is all you need (0) | 2022.03.28 |
댓글