본문 바로가기

728x90

LightGBM

(4)
[Machine learning 평가] Pipeline 형태, Classifier의 평가지표{confusion matrix, 혼동오류, f1 score 개념} 머신러닝의 모델 중 표현방식을 다르게 바꿔주는 set_config와 pipeline에 대해서 알아보겠습니다. 또한 Classifier(분류) 모델의 여러가지 평가 지표를 확인해보고자 합니다. 이번 시간에는 데이터셋이나 feature engineering에 대해 많은 지면을 할애하진 않고 모델 자체에 중점을 두고자 합니다. 너무나 잘 알려진 데이터셋이기도 하고, 이제까지 많은 머신러닝, 캐글 관련 서적에서 다뤄본 적 있는 주제이기 때문이지요. 바로, 타이타닉 생존자 데이터셋 입니다. Kaggle Competitions Titanic - Machine Learning from Disaster | Kaggle www.kaggle.com 잠깐 설명하자면, 타이타닉에 올라탔었던 승객들과 승객에 대한 정보, 그리고..
[Machine Learning] Kaggle_데이터셋 분석_미 초소형 기업 밀도 예측_ep.2 서론 바로 지난시간에 이어서, 미국의 자치구별 초소형 기업의 밀도에 대한 분석 데이터입니다. 같은 데이터를 그대로 이어서 사용했고 표준화 스케일링을 진행한 상태입니다. 이번엔 KNN 모델을 사용해서 회귀 문제를 제시해보았는데요? * K-Nearest Neighbors Regressor 이때 KNN모델이란, 주변의 가장 인접한(Nearst) 이웃의(Neighbors) K개의 샘플을 이용해서 임의의 값을 예측하는 방식을 의미합니다. K가 5개일 경우, 5개의 가장 가까웃 이웃을 찾아 평균을 계산해서 값을 예측합니다. 지난번에는 KNN모델의 분류문제를 해결하는데 사용했었죠? https://astart.tistory.com/34 [Machine Learning] KNN 알고리즘 실습사례_wine 분류 KNN A..
[Machine Learning] Kaggle_데이터셋 분석_Video_Games_Sales.1 서론 이번 시간에는, 필자의 자유 주제로 kaggle에 분석용 데이터(Datasets)에 공유되어 있는 Video Game Sales를 활용해서, 여러가지 분석을 진행해보고자 합니다! 데이터셋 자체에 특별한 목표는 없지만, 일정한 흐름들은 있는데요. 바로 Global sales(전세계 판매량)과 그에 따른 platform이나, publisher(회사)의 순위들 입니다. 실제로 1100여건이 넘는 코드들을 보면 매우 다양한 방법으로 비디오 게임 데이터를 시각화한 그래프를 보실 수 있습니다. 아래는 원본 입니다. https://www.kaggle.com/datasets/gregorut/videogamesales Video Game Sales Analyze sales data from more than 16,..
[Machine Learning] Kaggle_연습사례 분석_Spaceship_titanic 서론 이번시간에는 Kaggle의 완전 기초, 시작단계(Getting Started) 컴피티션에 놓여져있는 Spaceship Titanic 데이터에 대해서 개인적으로 분석한 머신러닝 사례를 진행해 보고자 합니다. 먼저, 원본 데이터 링크입니다. https://www.kaggle.com/competitions/spaceship-titanic Spaceship Titanic | Kaggle www.kaggle.com 제 노트북은 아래에서 보실 수 있습니다. 빠르게 요약된 버전을 보시려면, 아래 링크를 보셔도 무방합니다! (처음에 파일 로드할 시의 경로만 다릅니다) https://www.kaggle.com/code/apatheia0/space-titanic-lightgbm-test/notebook 먼저 몇가지 ..

728x90