본문 바로가기
Data Science/Paper Review

[Paper Review] Self-Paced Curriculum Learning

by VAMOSSS 2023. 5. 20.
반응형

Authors : Jiang, L., Meng, D., Zhao, Q., Shan, S., & Hauptmann, A.

Journal/Conference : AAAI

Source : https://ojs.aaai.org/index.php/AAAI/article/view/9608

 

Background

Curriculum Learning(CL)

  • 학습과정에서 쉬운 데이터부터 점차 어려운 데이터 학습
  • curriculum(학습 순서) : 사전 지식으로 결정되고, 고정되어있음
  • 그러므로 학습 과정에서의 피드백은 무시된 상태로 사전 지식의 퀄리티가 매우 중요함
  • 다양한 sources로 부터 사전지식을 포함하여 유연함을 가진다는 장점

Self-Paced Learning(SPL)

  • 학습과정에서 쉬운 데이터부터 점차 어려운 데이터 학습
  • curriculum(학습 순서) : 학습과정에서 학습 순서가 유동적으로 결정 (Loss 기준으로)
  • 사전 지식을 학습에 통합하는 데 제한이 있어 과적합되기 쉬움

 

Method

CL과 SPL를 하나로 묶은 framework 제안함 (서로의 장점을 묶은)

 

CL을 "instructor-driven", SPL을 "student-driven"이라 표현하면

Self-Paced Curriculum Learning(SPCL)은 "instructor-student-collaborative" learning model라고 할 수 있다.

 

다음 식을 통해 최적화를 진행한다.

  • \( v = [v_1,v_2,...,v_n]^T \) : sample의 중요도를 반영하는 weight
  • \( f \) : self-paced function (learning scheme을 조절)
  • \( \Psi \) : 미리 정해진 커리큘럼의 정보를 인코딩하는 실현 가능한 영역(feasible region)

curriculum은 다음과 같이 수학적으로 묘사될 수 있다.

 

Definition 1 (Total order curriculum)

학습 샘플 \( X={x_i}^n_{i=1} \)에 대해서 total order curriculum이나 curriculum for short는 다음과 같은 ranking function으로 표현될 수 있다.

  • \( \gamma(x_i) < \gamma(x_j) \) : 학습과정에서 \( x_i \)가 \( x_j \)보다 먼저 학습되야하는 걸 표현
  • \( \gamma(x_i) = \gamma(x_j) \) : 학습과정에서 두 샘플에 대해 선호되는 학습 순서는 따로 없는 걸 표현

 

Definition 2 (Curriculum region)

학습 샘플 \( X={x_i}^n_{i=1} \)와 그들의 weight variables \( v = [v_1,v_2,...,v_n]^T \)에 대해서 미리 결정된 curriculum \( \gamma(.) \) 가 주어진 경우, 다음 조건을 만족하면 feasible resion \( \Psi \)은 \( \gamma \)의 curriculum region이라 불려진다.

  1. \( \Psi \)는 nonempty convex set
  2. \( \int_{\Psi}v_i dv \)가 \( \Psi \) 안에서 \( v_i \)의 기댓값(expectation)을 계산한다고 했을 때, 샘플의 어떤 \( x_i, x_j \)쌍에 대해서 \( \gamma(x_i) < \gamma(x_j) \)이면,  \( \int_{\Psi}v_i dv > \int_{\Psi}v_j dv \)를 보장한다.
    유사하게 \( \gamma(x_i) = \gamma(x_j) \)이면, \( \int_{\Psi}v_i dv = \int_{\Psi}v_j dv \)이다.

 

Definition 3 (Self-paced function)

다음 3가지 조건을 만족하는 \( f(v; \lambda) \)를 self-paced function이라 부름

  1. \( v \in [0,1]^n \)에 대해서 \( f(v; \lambda) \)가 convex
  2. \( v_i,l_i \)를 제외하고 모든 변수가 고정되어 있을 때, \( v_i^* \)가 \( l_i \)에 따라 감소하고, \( lim_{l_i->0}v_i^*=1 \), \( lim_{l_i->\infty}v_i^*=0 \)
  3. \( \sum_{i=1}^n v_i \)가 \( \lambda \)에 따라 증가하고, 모든 \( i \in [1,n] \)에 대해서 \( lim_{\lambda->0}v_i^*=0 \), \( lim_{\lambda->\infty}v_i^*=1 \)

where \( v^* = argmin_{v \in [0,1]^n} \sum v_i l_i + f(v;\lambda ) \), \( v* = [v_1^*, v_2^*, ..., v_n^*] \)

  • \( v = [v_1,v_2,...,v_n]^T \) : 각 training sample의 weight vector
  • \( l = [l_1,l_2,...,l_n]^T \) : 해당하는 loss

 

SPCL Implementation

특정 문제들을 해결할 수 있는 구체적인 self-paced functions과 curriculum regions을 제안

 

Curriculum region implementation

Theorem 1

  • training sample \( X={x_i}_{i=1}^n \)에 대해서, 정의된 curriculum \( \gamma \)가 주어졌을 때 feasible region \(\Psi = \{ v|a^Tv \leq c \} \)가 다음 조건을 만족하면  \( \gamma \)의 curriculum region이다.
    1. \( \Psi \wedge v \in [0,1]^n \)은 nonempty
    2. 모든 \( \gamma(x_i) < \gamma(x_j) \)에 대해서 \( a_i < a_j \), 모든 \( \gamma(x_i) = \gamma(x_j) \)에 대해서 \( a_i = a_j \) 

 

Self-paced function implementation

self-faced function은 구체적인 loss functions과 독립적으로 regularization term으로 실현되고, 다양한 문제들에 쉽게 적용될 수 있다.

SPCL은 다른 문제들에 대해 다른 learning schemes을 활용할 수 있다.

 

Binary scheme

Linear scheme

in which \( \lambda>0 \)

 

Logarithmic scheme

 

Mixture scheme

 

Reference

Jiang, L., Meng, D., Zhao, Q., Shan, S., & Hauptmann, A. (2015, February). Self-paced curriculum learning. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 29, No. 1).

 

http://dmqm.korea.ac.kr/activity/seminar/338

반응형

댓글