반응형 전체 글58 [ML] 분류(Classification) 분류 지도학습의 한 종류로 target이 범주형(이산형) 레이블인 데이터를 다루는 학습입니다. 연속형인 레이블을 가진 데이터셋을 다루는 학습은 회귀라고 부릅니다. 다음 글에 설명해놓았습니다. 분류의 종류 이진 분류 다중 분류 다중 레이블 분류 다중 출력 분류 이진 분류 이진 분류기는 한 레이블만 구별하는 것입니다. 예를 들면, 5-감지기는 '5'와 '5아님' 두 클래스를 구분할 수 있는 이진 분류기입니다. 다중 분류 셋 이상의 클래스 구별합니다. 예를 들어, 언어라는 target이 있다면, 값에는 한국어, 영어, 프랑스어, 스페인어 등 여러 클래스가 존재할 것입니다. 일부 알고리즘(SGD 분류기, 랜덤 포레스트 분류기, 나이브 베이즈 분류기 등)은 여러 개의 클래스를 직접 처리할 수 있는 반면, 다른 알.. 2022. 2. 6. [ML] 머신러닝(Machine Learning)이란? 머신러닝 기계 학습(機械學習) 또는 머신 러닝(machine learning)은 경험을 통해 자동으로 개선하는 컴퓨터 알고리즘의 연구이고, 인공지능의 한 분야로 간주됩니다. 머신러닝에서 알고리즘은 대규모 데이터 세트에서 패턴과 상관관계를 찾고 분석을 토대로 최적의 의사결정과 예측을 수행합니다. 궁극적으로는 의사 결정 기준에 대한 구체적인 지침을 소프트웨어에 직접 코딩해 넣는 것이 아닌, 대량의 데이터와 알고리즘을 통해 컴퓨터 그 자체를 ‘학습’시켜 작업 수행 방법을 익히는 것을 목표합니다. 참고로 인공지능과 머신러닝, 딥러닝은 위의 포함 관계가 있다고 생각하시면 됩니다. 장점 전통적인 프로그래밍 기법과 알고리즘은 시간이 지나면서 업데이트하거나 수정해야 해서 유지 보수가 힘듭니다. 하지만 머신러닝은 데이터.. 2022. 2. 6. [DACON] 집값 예측 경진대회 DACON - 집값 예측 경진대회 2022.01.24 ~ 2022.02.04 동안 진행되었던 DACON 집값 예측 경진대회에 참가 후기입니다. Kaggle의 집 값 예측 데이터를 축소하여 가져온 듯합니다. 아래의 링크는 제가 작성한 코드를 DACON에 공유한 것입니다. 본 글에서는 데이터 분석 진행 과정을 요약해서 적어보려 합니다. 저번 펭귄 몸무게 예측 대회에 비해 결과가 좋지 않습니다. (public : 0.09942) 등수는 비밀입니다. 많이 아쉬운 결과라... 😐 정확히 어떤 부분에서 갈렸는지는 알 수 없지만 상위에 랭크되신 분들 코드를 참고해서 수정해봐야겠습니다. 해당 대회의 평가 산식은 'NMAE'였습니다. ▶ DACON 집값 예측 경진대회 - Code Share EDA&Feature Engi.. 2022. 2. 4. [ML] 결정 트리 (Decision Tree) 결정 트리 (Decision Tree) 분류와 회귀 작업 그리고 다중 출력 작업도 가능한 다재다능한 머신러닝 알고리즘 분류 : 목표변수가 범주형인 경우 회귀 : 목표변수가 연속형인 경우 지도 학습 알고리즘에 해당 매우 복잡한 데이터셋도 학습할 수 있는 강력한 알고리즘 의사결정 나무 방식의 최대 장점은 데이터 전처리 불필요 → 특성의 스케일을 맞추거나 평균을 원점에 맞추는 작업 등이 필요하지 않음. 결정 트리 학습과 시각화, 예측 사이킷런(scikit-learn) - tree.DecisionTreeClassifier from sklearn.datasets import load_iris from sklearn import tree iris = load_iris() X, y = iris.data, iris.t.. 2022. 2. 1. [DACON] 펭귄 몸무게 예측 경진대회 DACON - Penguin Body Mass ▶ DACON - Penguin Codeshare 2021.12.27 ~ 2022.01.07에 진행된 DACON 펭귄 몸무게 예측 경진대회 참가 후기이다. 머신러닝 입문, 데이터 분석 연습용으로 만들어진 대회라 데이터의 크기가 그렇게 크지 않았다. 실제 데이터에 적용하면서 연습하려고 참가하였고, 개인적으로 이것저것 많이 시도해보려고했다. 대회가 끝나고 다른 분들이 다양한 코드를 공유해주셔서 참고해서 보안했지만 여기서는 내가 한 방식에 대해서 작성해보려한다. 아래에 참고하면 좋을 다른 분들의 코드를 공유해주신 링크들을 첨부해놓겠다. 이 대회는 평가지표로 RMSE를 사용했다. 결과적으로 나는 대회종료 후 RMSE : 272.31852 로 725명 중 12등으로 .. 2022. 1. 11. [Kaggle] Titanic 필사 - 이유한님 Kaggle - Titanic 필사 Data Analysis의 전체적인 흐름에 대한 이해와 부분별로 어떤 코드로 구현했는지 배우기 위해 Machine Learning Study에서 진행했다. 다른 분들이 방법과 코드들에 대해서 많이 올려주셨으니 나는 Titanic을 해보면서 느낀 데이터 분석의 전체적인 흐름에 대해서 정리해보려고 한다. (느낀 점도) 필사하는 데 참고한 코드와 나의 작성 코드는 아래에 URL 붙여놓았다. Load Data, Import Library 분석하려는 데이터를 불러오고 필요한 라이브러리를 불러오고 설정을 하는 단계이다. 해당 단계에서는 전체적으로 데이터의 크기가 어떻게 되고 어떤 Feature들이 있고, type은 어떻게 되는지 간단하게 살펴보는 단계이기도 하다. EDA 개인적으.. 2022. 1. 9. [Git] Github push & pull Github Local repository : 내가 작업하는 컴퓨터에 있는 레포지토리 Remote repository : 로컬 레포가 아닌 컴퓨터나 서버에서 생성된 원격 레포지토리 Github은 가장 많이 사용되는 git을 위한 Romote 레포지토리이다. 사용자 확인 및 설정 git config --list : config 설정에 대한 정보가 모두 list로 출력됨 git config --global user.name "사용자 name" : 계정 이름 전역으로 설정 git config --global user.email "사용자 email" : 계정이메일 전역으로 설정 git config --unset --global user.name : 계정이름 지움 git config --unset --global.. 2022. 1. 9. [Git] Git 파일 관리(add, commit), Branch Git 파일 관리 워킹 디렉터리의 모든 파일은 크게 4가지 상태로 분류. Untracked : git에 처음 등록되는 파일 Unmodified : 수정된 부분이 없는 파일 Modified : 수정된 파일 Staged : commit 될 준비가 된, stage에 올라가 있는 파일 Untracked와 Modified의 구분은 git이 이미 접근한 파일인가 아니면 서로 초면인가로 구분. commit을 하게 되면 버전이 저장되고, commit을 하기 위해서는 staged 상태를 먼저 만들어야 한다. staged 상태로 만드는 것을 add 라고 한다. staged 상태에서 commit을 하게 되면 다시 Unmodified 상태가 된다. add & commit 하면 수정된 파일의 버전을 저장한다고 생각하면 된다. .. 2022. 1. 9. [Git] Git 생성 & Github 연동 Git의 장점 버전 관리 시스템 협업 1. 버전 관리 시스템 파일을 수정하고 저장할 때 수정 이전의 파일을 남겨두기 위해 다른 이름으로 저장하여 test.txt -> test_1.txt -> ... -> test_final.txt -> test_final_final.txt 처럼 수정하여 이전 파일을 지우지 못하고 결국 많은 파일이 쌓이게 된 경험이 많을 것이다. Git은 이런 버젼 관리에 있어 여러 파일을 갖고 있지 않아도 이전 버전으로 돌아갈 수 있고, 어떤 내용을 수정하였는지 기록하고 확인할 수 있다는 장점이 있다. 파일은 하나지만 내가 저장한 버전으로 선택적으로 이동이 가능하다) 2. 협업 협업, 분업을 하는 과정에 있어 공유를 하는 과정에서 지워지는 경우도 존재할 것이고, 겹치는 부분도 존재할 수.. 2022. 1. 8. [연합동아리] BOAZ 데이터 분석 18기 - 지원, 면접, 합격 후기 BOAZ BOAZ는 대학(원)생으로 이루어진 빅데이터 연합동아리입니다. 데이터 분석, 데이터 엔지니어링, 데이터 시각화로 파트가 구분되어 진행됩니다. 지원 통계학과 출신으로 데이터 분석에 관심이 많았던 저는 다양한 학교, 학과의 열정 가득한 분들과 함께 공부하고 친해지면 서로 자극이 되며 활동 기간동안과 그 이후에도 많은 성장을 이룰 수 있을 것 같아 지원하게 되었습니다. 저는 BOAZ 18기 - 데이터 분석 파트에 지원하였습니다. 지원서는 기본적인 정보와 툴에 대한 경험, 프로젝트 경험 등에 대해 작성했고, 다음 세 가지에 대해 자세히 작성했습니다. 지원한 동기와 BOAZ 활동을 통해 얻고 싶은 것 (600자) 프로젝트 경험 소개 (700자) 열정을 가지고 끝까지 마무리했던 경험 (500자) 프로젝트 .. 2022. 1. 7. 이전 1 2 3 4 5 다음 반응형