본문 바로가기

728x90

머신러닝

(18)
[Machine learning 평가] Pipeline 형태, Classifier의 평가지표{confusion matrix, 혼동오류, f1 score 개념} 머신러닝의 모델 중 표현방식을 다르게 바꿔주는 set_config와 pipeline에 대해서 알아보겠습니다. 또한 Classifier(분류) 모델의 여러가지 평가 지표를 확인해보고자 합니다. 이번 시간에는 데이터셋이나 feature engineering에 대해 많은 지면을 할애하진 않고 모델 자체에 중점을 두고자 합니다. 너무나 잘 알려진 데이터셋이기도 하고, 이제까지 많은 머신러닝, 캐글 관련 서적에서 다뤄본 적 있는 주제이기 때문이지요. 바로, 타이타닉 생존자 데이터셋 입니다. Kaggle Competitions Titanic - Machine Learning from Disaster | Kaggle www.kaggle.com 잠깐 설명하자면, 타이타닉에 올라탔었던 승객들과 승객에 대한 정보, 그리고..
[Machine Learning] 해외 IT직종 근무자 Layoff 분석_KMeans Kaggle 데이터셋 중 Technology Company Layoffs(2022-2023) 을 분석한 자료입니다. 이번 시간에는 캐글 데이터를 확인하던 중, 최근에 올라온 흥미로운 데이터셋이 있어 몇가지 확인해보고, 비지도학습을 넣어볼 예정입니다. 미래의 우리와 관련이 있을 수도 있는 Technology company의 근무자 중 layoff 상태가 된 인원의 분석입니다. layoffs는 기업측의 사정으로 인해 일시적 해고를 의미합니다. 여기서는 '정리해고'나 '구조조정' 정도의 의미로 통할 수 있습니다. 안타깝게도 한국의 사례는 없고 미국과 캐나다, 일부 유럽의 사례를 조사한 데이터입니다. 현재 기준, 제출된지 하루 밖에 되지않은 따끈따끈한 통계자료입니다. 잦은 구조조정은 우리나라만의 문제는 아니었군..
[Machine Learning] PCA + Dimension 축소 학습 서론 이전까지 머신러닝의 모델에서는 어느정도 column들이 정제된, 즉 피쳐가 보기좋게 들어가있는 모델들을 확인해보았습니다. 하지만 현실에서 마주하는 여러가지 상황에서, 우리는 column들이 항상 잘 정제되어 있는 데이터만을 보긴 어렵습니다. 종종 변수가 연관관계를 지닐지, 지니지 않을지 정말 구분하기도 어려운 데이터프레임을 볼 때도 있습니다. 이러한 상황에서, 우리는 규칙성이 없던 것에 규칙성을 만들어보려고 하는 여러가지 시도들을 해보게 됩니다. 그러한 시도들 중의 하나가 바로 PCA 입니다. Principal Component Analysis 본 글은 공돌이의 수학정리노트 에서 영감을 받았습니다. ▼링크 https://angeloyeo.github.io/2019/07/27/PCA.html 주성분 ..
[Feature engineering] 데이터 처리 사례_2021 서울시 농산물 가격 분석_2 서론 지난 시간에 이어서, 서울시 농수축산물 가격 데이터에 대해서 분석을 진행합니다. 몇가지 수정되야 할 점이 있어서 , 따로 정리했습니다. 1) 2021년 한 해의 데이터만으로는 변화하는 양상을 보기 어려울 것으로 판단, 2019년과 2020년의 데이터를 조회하여 3년간의 양상을 살펴봅니다. 2) 날짜 데이터인 년도-월에 대해서 월을 빼고 , 연도만 조회해서 사용합니다. 3) 이 날짜 데이터도 독립변수에 포함하게 됩니다. 4) DecisionTree 회귀 모델을 통해서 score를 높이게 됩니다. 시작 df_19 = pd.read_csv('생필품 농수축산물 가격 정보(2019년).csv', encoding = 'cp949') df_20 = pd.read_csv('생필품 농수축산물 가격 정보(2020년)..
[Feature engineering] 데이터 처리 사례_2021 서울시 농산물 가격 분석_1 서론 이번 시간에는 사이드 프로젝트로 진행했던 2021년의 서울시 먹거리 가격정보에 대한 데이터셋으로 데이터 인사이트 및 전처리를 진행해볼 예정입니다. 출처는 서울 열린데이터 광장(https://data.seoul.go.kr/)에서 농수축산물 가격 정보를 열람했습니다. 추가적으로, 열린 데이터 광장은 인공지능 개발을 위한 공공 학습 데이터, 시민을 위한 열린 데이터를 손쉽게 활용할 수 있도록 무료로 공개하여 더 많은 연구 자료가 발전할 수 있도록 노력하고 있습니다. 독자분들도 실습을 위한 학습 데이터셋이 필요할 때, kaggle에서 영어 데이터만 읽는 것도 지쳤다면, 서울 열린데이터 광장도 추천 드립니다. 한글인 점이 매우 마음에 드네요. 시작하기에 앞서, 사용한 학습 종류는 지도학습의 회귀(Regres..
[Machine Learning] Kaggle_데이터셋 분석_미 초소형 기업 밀도 예측_ep.2 서론 바로 지난시간에 이어서, 미국의 자치구별 초소형 기업의 밀도에 대한 분석 데이터입니다. 같은 데이터를 그대로 이어서 사용했고 표준화 스케일링을 진행한 상태입니다. 이번엔 KNN 모델을 사용해서 회귀 문제를 제시해보았는데요? * K-Nearest Neighbors Regressor 이때 KNN모델이란, 주변의 가장 인접한(Nearst) 이웃의(Neighbors) K개의 샘플을 이용해서 임의의 값을 예측하는 방식을 의미합니다. K가 5개일 경우, 5개의 가장 가까웃 이웃을 찾아 평균을 계산해서 값을 예측합니다. 지난번에는 KNN모델의 분류문제를 해결하는데 사용했었죠? https://astart.tistory.com/34 [Machine Learning] KNN 알고리즘 실습사례_wine 분류 KNN A..

728x90