본문 바로가기
반응형

Machine Learning5

[ML] Clustering (군집화) - K-Means, Hierarchical Clustering Clustering Target 변수(y 변수)가 없는 데이터 분석법 unsupervised machine learning task clustering algorithms only interpret the input data and find natural groups or clusters in feature space 전체적인 데이터의 구조를 파악하는데 이용 Unsupervised이므로 clustering 결과에 대해 정확도를 알 수 있는 방법은 없음 (정답이 없으므로) Clustering만의 평가방법이 따로 존재 군집분석은 자료 사이의 거리를 이용하여 수행되기 때문에, 각 자료의 단위가 결과에 큰 영향을 미침 그렇기 때문에 표준화를 진행 군집의 평가방법 실루엣 분석( Silhouette analysis.. 2022. 6. 29.
[DACON] 항공사 고객 만족도 예측 경진대회 DACON - 항공사 고객 만족도 예측 경진대회 2022.02.07 ~ 2022.02.18 동안 진행되었던 DACON 항공사 고객 만족도 예측 경진대회 참가 후기입니다. 본 글에서는 데이터 분석 진행 과정을 요약하여 적어보려 합니다. 아래의 링크는 제가 한 코드를 전부를 공유해놓은 주소입니다. 저는 종료가 하루 남은 현재 시점에 517명 중 19등의 점수를 받았습니다. (사진은 24등인데, 19등과 점수가 동일합니다 ㅎㅎ) 해당 대회의 평가 산식은 'Accuracy'였고, 저는 public : 0.938 점수를 받았습니다. 저도 다른 분들의 코드를 참고하여 점수를 좀 더 올리면서 흥미를 유발하려 했던 것 같습니다. 이 글을 보신 분들이 조금이라도 얻어가시는 게 있으시면 좋겠습니다. ▶DACON - Cod.. 2022. 2. 17.
[ML] 분류(Classification) 분류 지도학습의 한 종류로 target이 범주형(이산형) 레이블인 데이터를 다루는 학습입니다. 연속형인 레이블을 가진 데이터셋을 다루는 학습은 회귀라고 부릅니다. 다음 글에 설명해놓았습니다. 분류의 종류 이진 분류 다중 분류 다중 레이블 분류 다중 출력 분류 이진 분류 이진 분류기는 한 레이블만 구별하는 것입니다. 예를 들면, 5-감지기는 '5'와 '5아님' 두 클래스를 구분할 수 있는 이진 분류기입니다. 다중 분류 셋 이상의 클래스 구별합니다. 예를 들어, 언어라는 target이 있다면, 값에는 한국어, 영어, 프랑스어, 스페인어 등 여러 클래스가 존재할 것입니다. 일부 알고리즘(SGD 분류기, 랜덤 포레스트 분류기, 나이브 베이즈 분류기 등)은 여러 개의 클래스를 직접 처리할 수 있는 반면, 다른 알.. 2022. 2. 6.
[DACON] 집값 예측 경진대회 DACON - 집값 예측 경진대회 2022.01.24 ~ 2022.02.04 동안 진행되었던 DACON 집값 예측 경진대회에 참가 후기입니다. Kaggle의 집 값 예측 데이터를 축소하여 가져온 듯합니다. 아래의 링크는 제가 작성한 코드를 DACON에 공유한 것입니다. 본 글에서는 데이터 분석 진행 과정을 요약해서 적어보려 합니다. 저번 펭귄 몸무게 예측 대회에 비해 결과가 좋지 않습니다. (public : 0.09942) 등수는 비밀입니다. 많이 아쉬운 결과라... 😐 정확히 어떤 부분에서 갈렸는지는 알 수 없지만 상위에 랭크되신 분들 코드를 참고해서 수정해봐야겠습니다. 해당 대회의 평가 산식은 'NMAE'였습니다. ▶ DACON 집값 예측 경진대회 - Code Share EDA&Feature Engi.. 2022. 2. 4.
[DACON] 펭귄 몸무게 예측 경진대회 DACON - Penguin Body Mass ▶ DACON - Penguin Codeshare 2021.12.27 ~ 2022.01.07에 진행된 DACON 펭귄 몸무게 예측 경진대회 참가 후기이다. 머신러닝 입문, 데이터 분석 연습용으로 만들어진 대회라 데이터의 크기가 그렇게 크지 않았다. 실제 데이터에 적용하면서 연습하려고 참가하였고, 개인적으로 이것저것 많이 시도해보려고했다. 대회가 끝나고 다른 분들이 다양한 코드를 공유해주셔서 참고해서 보안했지만 여기서는 내가 한 방식에 대해서 작성해보려한다. 아래에 참고하면 좋을 다른 분들의 코드를 공유해주신 링크들을 첨부해놓겠다. 이 대회는 평가지표로 RMSE를 사용했다. 결과적으로 나는 대회종료 후 RMSE : 272.31852 로 725명 중 12등으로 .. 2022. 1. 11.
반응형