본문 바로가기
반응형

Data Science32

[Paper Review] Self-Paced Curriculum Learning Authors : Jiang, L., Meng, D., Zhao, Q., Shan, S., & Hauptmann, A. Journal/Conference : AAAI Source : https://ojs.aaai.org/index.php/AAAI/article/view/9608 Background Curriculum Learning(CL) 학습과정에서 쉬운 데이터부터 점차 어려운 데이터 학습 curriculum(학습 순서) : 사전 지식으로 결정되고, 고정되어있음 그러므로 학습 과정에서의 피드백은 무시된 상태로 사전 지식의 퀄리티가 매우 중요함 다양한 sources로 부터 사전지식을 포함하여 유연함을 가진다는 장점 Self-Paced Learning(SPL) 학습과정에서 쉬운 데이터부터 점차 어려운 데이.. 2023. 5. 20.
[Paper Review] Self-Paced Learning for Latent Variable Models Authors : Kumar, M., Packer, B., & Koller, D. Journal/Conference : NeurIPS 2010 Source : https://proceedings.neurips.cc/paper/2010/file/e57c6b956a6521b28495f2886ca0977a-Paper.pdf Background 잠재 변수 모델(Latent variable models)은 머신러닝의 몇몇 applications 좋은 성능을 보인다. 잠재 변수 모델의 매개변수를 학습하는 것은 종종 non-convex optimization problem를 해결할 필요가 있다. 이런 문제에서 근사적인 solution을 얻기 위한 몇 가지 접근법에는 잘 알려진 EM algorithm과 CCCP alg.. 2023. 3. 5.
[Paper Review] Curriculum Learning Authors : Bengio, Y., Louradour, J., Collobert, R., & Weston, J. Journal/Conference : ICML 2009 Source : https://dl.acm.org/doi/pdf/10.1145/1553374.1553380 Background Animal training 학습과정(learning system)에서 어떤 예제들이 제공되고, 어떤 순서로 제공될 것인가에 대한 선택은 학습을 가이드해 줄 수 있으면서 학습의 속도를 저명히 증가시킬 수 있음. shaping이라 불림 (Skinner, 1958; Peterson, 2004; Krueger & Dayan, 2009) Elman, J. L. (1993). Learning and development.. 2023. 3. 2.
[Recsys] 추천시스템 알고리즘 - 하이브리드 시스템, 연관성 분석 본 글은 Recommender Systems(Charu C. Aggarwal), 추천 시스템 기법 연구동향 분석(손지은, et al.)을 참고하여 정리한 내용들을 바탕으로 작성한 글입니다. 추천시스템 알고리즘 해당 포스팅에서는 추천시스템 알고리즘 중 하이브리드 시스템, 연관성 분석, 시간적 역동성을 고려한 추천시스템, 다양성 향상을 위한 추천시스템에 대해 정리해 보았다. 하이브리드 시스템 사용자에게 만족도 높은 추천결과를 제공하기 위해서는 사용자의 현재 상황을 인지하고 선호도의 특성을 정확히 파악한 뒤, 이에 적합한 아이템을 추천하여야 한다. 추천시스템에서 사용되는 알고리즘들은 각각 추천의 기준이 다르기 때문에 추천 시스템을 적용하고자 하는 분야의 특성에 알맞은 알고리즘을 선택하고 추천 성능을 향상할 수.. 2023. 1. 15.
[Recsys] 추천시스템 알고리즘 - 협업 필터링(Collaborative filtering) 본 글은 Recommender Systems(Charu C. Aggarwal), 추천 시스템 기법 연구동향 분석(손지은, et al.)을 참고하여 정리한 내용들을 바탕으로 작성한 글입니다. 협업 필터링 해당 포스팅에서는 추천시스템 알고리즘 중 협업 필터링 방식에 대해 정리해보았다. 협업 필터링은 '특정 아이템에 대해 선호도가 유사한 고객들은 다른 아이템에 대해서도 비슷한 선호도를 보일 것'이라는 기본 가정을 바탕으로 사용자 혹은 아이템간 유사도를 기반으로 선호도를 예측하는 방법이다. 콘텐츠 기반 접근방식이 사용자와 아이템 정보에만 의존하여 선호도를 예측하는 반면, 협업 필터링은 사용자가 아이템에 대해 평가한 정보를 사용해 선호도를 예측한다. 이것이 가장 큰 차이점이다. 즉, 추천대상이 되는 고객과 취향이.. 2022. 12. 22.
[Recsys] 추천시스템 알고리즘 - 콘텐츠 기반(Content-based) 본 글은 Recommender Systems(Charu C. Aggarwal), 추천 시스템 기법 연구동향 분석(손지은, et al.)을 참고하여 정리한 내용들을 바탕으로 작성한 글입니다. 콘텐츠 기반 접근방식 해당 포스팅에서는 추천시스템 알고리즘 중 콘텐츠 기반 접근방식을 정리해보았다. 콘텐츠 기반 접근방식은 아이템의 콘텐츠를 직접 분석하여 아이템과 아이템 혹은 아이템과 사용자 선호도간 유사성을 분석하여 이를 토대로 고객에게 아이템을 추천해주는 방식이다. 위 그림은 콘텐츠 기반 접근방식 추천 기법을 보여주고 있다. 사용자가 직접 입력한 정보나, 사용자가 아이템에 대해 평가한 점수 혹은 과거 구매내역을 바탕으로 생성 된 정보를 통해 선호하는 아이템을 파악. 미리 선정된 기준을 통해 분류된 아이템 카테고리.. 2022. 12. 19.
[Recsys] 추천시스템 - 데이터 형태, 평가지표 본 글은 Recommender Systems(Charu C. Aggarwal)라는 책과 다양한 블로그를 참고하여 정리한 내용들을 바탕으로 작성한 글입니다. 데이터 형태 요즘 다양한 분야에서 추천시스템이 활용되면서 다양한 알고리즘들이 생겨나고 적용되고있다. 추천시스템의 대표적인 알고리즘 전에 추천시스템에 활용되는 데이터의 형태와 평가지표를 먼저 정리해보고자 한다. Explicit Data vs Implicit Data 추천시스템에 활용되는 데이터 형태를 크게 다음과 같이 나눌 수 있다. Explicit Data 유저가 자신의 선호도를 직접(Explicit) 표현한 Data 유저의 호불호를 명백히 알 수 있기 때문에 강력하지만 데이터를 얻기 힘듬 ex) 평점, 영화 리뷰, 구독, 차단 데이터 등 Implic.. 2022. 12. 13.
[Recsys] 추천시스템이란? 본 글은 Recommender Systems(Charu C. Aggarwal)라는 책과 다양한 블로그를 참고하여 정리한 내용들을 바탕으로 작성한 글입니다. 추천시스템 추천시스템은 사용자(user)에게 상품(item)을 제안하는 소프트웨어 도구이자 기술이다. 이러한 제안은 어떤 상품을 구매할 지 또는 어떤 음악을 들을지와 같은 다양한 의사결정과 연관되어있다. 인터넷이 발전됨에 따라 아이템 구매 및 선호에 대한 사용자의 피드백을 얻기 쉬워졌고, 이런 피드백을 바탕으로 과거의 사용자-아이템 간 데이터를 활용해 취향을 고려한 아이템을 추천하는 것이 추천시스템의 기본적 아이디어이다. 추천시스템의 진정한 묘미는 사용자 자신도 좋아하는지 몰랐던 취향을 시스템이 발견하고 그에 맞는 콘텐츠를 추천해주는 것이다. 이러한 .. 2022. 12. 12.
[Statistics] 중심 극한 정리 (CLT, Central Limit Theorem) 본 글은 연세대 응용통계학과 강승호 교수님의 의견(블로그)을 참고하여 요약하듯이 작성하였습니다. 중심 극한 정리 간략하게 설명하면 아래와 같습니다. 모평균이 \(\mu\)이고 유한한 모분산 \(\sigma^2\)인 모집단에서 무작위로 확률변수 \(X_1,X_2,,,X_n\)을 추출하였을 때, 표본의 크기가 커짐에 따라, 표본평균의 분포는 근사적으로 평균이 \(\mu\)이고 분산이 \(\sigma^2/n\)인 정규분포로 수렴한다. 여기서 중요한 사실은 “모집단의 분포에 상관없이” 중심극한정리가 성립한다는 사실입니다. 중심 극한 정리의 의미를 더 확실하게 이해하기위해 통계학적 관점의 흐름으로 설명하였습니다. 급하신 분들은 중심극한정리 파트만 읽으셔도 충분하지만, 글의 흐름을 따라가시면서 읽으시면 더욱 이해가.. 2022. 6. 30.
[ML] Clustering (군집화) - K-Means, Hierarchical Clustering Clustering Target 변수(y 변수)가 없는 데이터 분석법 unsupervised machine learning task clustering algorithms only interpret the input data and find natural groups or clusters in feature space 전체적인 데이터의 구조를 파악하는데 이용 Unsupervised이므로 clustering 결과에 대해 정확도를 알 수 있는 방법은 없음 (정답이 없으므로) Clustering만의 평가방법이 따로 존재 군집분석은 자료 사이의 거리를 이용하여 수행되기 때문에, 각 자료의 단위가 결과에 큰 영향을 미침 그렇기 때문에 표준화를 진행 군집의 평가방법 실루엣 분석( Silhouette analysis.. 2022. 6. 29.
[NLP] Bag-of-Words, Classical NLP 본 글은 카이스트 최윤재 교수님의 Programming for AI (AI504, Fall 2020), Class 9: Recurrent Neural Networks를 바탕으로 정리한 글입니다. Handling Variable-Length Sequences 이미지를 다룰 때는 이미지의 resolution가 predefined 되어있으므로 따로 이미지의 크기를 몰라도 되지만, 문장에 대해서는 network를 train 하기 전에 길이를 define 할 수 없으므로 variable-length sequences를 handling 할 필요가 있습니다. Bag-of-Words variable length sentences/documents를 handling하는 classical 한 방법입니다. 토큰/단어의 순서.. 2022. 5. 23.
[NLP] NLP briefing 본 글은 '파이토치로 배우는 자연어 처리(Natural Language Processing with PyTorch)'를 참고하여 정리한 글입니다. NLP 기술 훑어보기 말뭉치 고전이나 현대의 모든 NLP 작업은 말뭉치(corpus, 복수형 corpora)라 부르는 텍스트 데이터로 시작합니다. 말뭉치는 일반적으로 원시 텍스트(ASCII나 UTF-8 형태)와 이 텍스트에 연관된 메타데이터(metadata)를 포함합니다. 원시 텍스트는 문자(바이트) 시퀀스지만 일반적으로 문자를 토큰(token)이라는 연속된 단위로 묶었을 때 유용하고, 영어에서 토큰(token)은 공백 문자나 구두점으로 구분되는 단어와 숫자에 해당합니다. 메타데이터는 식별자, 레이블, 타임스탬프 등 텍스트와 관련된 어떤 부가 정보도 될 수 있.. 2022. 5. 4.
반응형