[Paper Review] Self-Paced Curriculum Learning

Authors : Jiang, L., Meng, D., Zhao, Q., Shan, S., & Hauptmann, A.

Journal/Conference : AAAI

Source : https://ojs.aaai.org/index.php/AAAI/article/view/9608

Background

Curriculum Learning(CL)

학습과정에서 쉬운 데이터부터 점차 어려운 데이터 학습
curriculum(학습 순서) : 사전 지식으로 결정되고, 고정되어있음
그러므로 학습 과정에서의 피드백은 무시된 상태로 사전 지식의 퀄리티가 매우 중요함
다양한 sources로 부터 사전지식을 포함하여 유연함을 가진다는 장점

Self-Paced Learning(SPL)

학습과정에서 쉬운 데이터부터 점차 어려운 데이터 학습
curriculum(학습 순서) : 학습과정에서 학습 순서가 유동적으로 결정 (Loss 기준으로)
사전 지식을 학습에 통합하는 데 제한이 있어 과적합되기 쉬움

Method

CL과 SPL를 하나로 묶은 framework 제안함 (서로의 장점을 묶은)

CL을 "instructor-driven", SPL을 "student-driven"이라 표현하면

Self-Paced Curriculum Learning(SPCL)은 "instructor-student-collaborative" learning model라고 할 수 있다.

다음 식을 통해 최적화를 진행한다.

\( v = [v_1,v_2,...,v_n]^T \) : sample의 중요도를 반영하는 weight
\( f \) : self-paced function (learning scheme을 조절)
\( \Psi \) : 미리 정해진 커리큘럼의 정보를 인코딩하는 실현 가능한 영역(feasible region)

curriculum은 다음과 같이 수학적으로 묘사될 수 있다.

Definition 1 (Total order curriculum)

학습 샘플 \( X={x_i}^n_{i=1} \)에 대해서 total order curriculum이나 curriculum for short는 다음과 같은 ranking function으로 표현될 수 있다.

\( \gamma(x_i) < \gamma(x_j) \) : 학습과정에서 \( x_i \)가 \( x_j \)보다 먼저 학습되야하는 걸 표현
\( \gamma(x_i) = \gamma(x_j) \) : 학습과정에서 두 샘플에 대해 선호되는 학습 순서는 따로 없는 걸 표현

Definition 2 (Curriculum region)

학습 샘플 \( X={x_i}^n_{i=1} \)와 그들의 weight variables \( v = [v_1,v_2,...,v_n]^T \)에 대해서 미리 결정된 curriculum \( \gamma(.) \) 가 주어진 경우, 다음 조건을 만족하면 feasible resion \( \Psi \)은 \( \gamma \)의 curriculum region이라 불려진다.

\( \Psi \)는 nonempty convex set
\( \int_{\Psi}v_i dv \)가 \( \Psi \) 안에서 \( v_i \)의 기댓값(expectation)을 계산한다고 했을 때, 샘플의 어떤 \( x_i, x_j \)쌍에 대해서 \( \gamma(x_i) < \gamma(x_j) \)이면, \( \int_{\Psi}v_i dv > \int_{\Psi}v_j dv \)를 보장한다.
유사하게 \( \gamma(x_i) = \gamma(x_j) \)이면, \( \int_{\Psi}v_i dv = \int_{\Psi}v_j dv \)이다.

Definition 3 (Self-paced function)

다음 3가지 조건을 만족하는 \( f(v; \lambda) \)를 self-paced function이라 부름

\( v \in [0,1]^n \)에 대해서 \( f(v; \lambda) \)가 convex
\( v_i,l_i \)를 제외하고 모든 변수가 고정되어 있을 때, \( v_i^* \)가 \( l_i \)에 따라 감소하고, \( lim_{l_i->0}v_i^*=1 \), \( lim_{l_i->\infty}v_i^*=0 \)
\( \sum_{i=1}^n v_i \)가 \( \lambda \)에 따라 증가하고, 모든 \( i \in [1,n] \)에 대해서 \( lim_{\lambda->0}v_i^*=0 \), \( lim_{\lambda->\infty}v_i^*=1 \)

where \( v^* = argmin_{v \in [0,1]^n} \sum v_i l_i + f(v;\lambda ) \), \( v* = [v_1^*, v_2^*, ..., v_n^*] \)

\( v = [v_1,v_2,...,v_n]^T \) : 각 training sample의 weight vector
\( l = [l_1,l_2,...,l_n]^T \) : 해당하는 loss

SPCL Implementation

특정 문제들을 해결할 수 있는 구체적인 self-paced functions과 curriculum regions을 제안

Curriculum region implementation

Theorem 1

training sample \( X={x_i}_{i=1}^n \)에 대해서, 정의된 curriculum \( \gamma \)가 주어졌을 때 feasible region \(\Psi = \{ v|a^Tv \leq c \} \)가 다음 조건을 만족하면 \( \gamma \)의 curriculum region이다.
1. \( \Psi \wedge v \in [0,1]^n \)은 nonempty
2. 모든 \( \gamma(x_i) < \gamma(x_j) \)에 대해서 \( a_i < a_j \), 모든 \( \gamma(x_i) = \gamma(x_j) \)에 대해서 \( a_i = a_j \)

Self-paced function implementation

self-faced function은 구체적인 loss functions과 독립적으로 regularization term으로 실현되고, 다양한 문제들에 쉽게 적용될 수 있다.

SPCL은 다른 문제들에 대해 다른 learning schemes을 활용할 수 있다.

Binary scheme

Linear scheme

in which \( \lambda>0 \)

Logarithmic scheme

Mixture scheme

Reference

Jiang, L., Meng, D., Zhao, Q., Shan, S., & Hauptmann, A. (2015, February). Self-paced curriculum learning. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 29, No. 1).

http://dmqm.korea.ac.kr/activity/seminar/338

저작자표시 (새창열림)

'Data Science > Paper Review' 카테고리의 다른 글

[Paper Review] Self-Paced Learning for Latent Variable Models (0)	2023.03.05
[Paper Review] Curriculum Learning (2)	2023.03.02
[Paper Review] N-BEATS (0)	2022.03.28
[Paper Review] Transformer - Attention is all you need (0)	2022.03.28

My Arxiv

[Paper Review] Self-Paced Curriculum Learning

Background

Method

Definition 1 (Total order curriculum)

Definition 2 (Curriculum region)

Definition 3 (Self-paced function)

SPCL Implementation

Curriculum region implementation

Self-paced function implementation

Reference

'Data Science > Paper Review' 카테고리의 다른 글

댓글

티스토리툴바

[Paper Review] Self-Paced Curriculum Learning

Background

Method

Definition 1 (Total order curriculum)

Definition 2 (Curriculum region)

Definition 3 (Self-paced function)

SPCL Implementation

Curriculum region implementation

Self-paced function implementation

Reference

'Data Science > Paper Review' 카테고리의 다른 글

관련글

댓글

티스토리툴바