본문 바로가기

728x90

표준화스케일링

(2)
[Machine Learning] Kaggle_데이터셋 분석_미 초소형 기업 밀도 예측_ep.2 서론 바로 지난시간에 이어서, 미국의 자치구별 초소형 기업의 밀도에 대한 분석 데이터입니다. 같은 데이터를 그대로 이어서 사용했고 표준화 스케일링을 진행한 상태입니다. 이번엔 KNN 모델을 사용해서 회귀 문제를 제시해보았는데요? * K-Nearest Neighbors Regressor 이때 KNN모델이란, 주변의 가장 인접한(Nearst) 이웃의(Neighbors) K개의 샘플을 이용해서 임의의 값을 예측하는 방식을 의미합니다. K가 5개일 경우, 5개의 가장 가까웃 이웃을 찾아 평균을 계산해서 값을 예측합니다. 지난번에는 KNN모델의 분류문제를 해결하는데 사용했었죠? https://astart.tistory.com/34 [Machine Learning] KNN 알고리즘 실습사례_wine 분류 KNN A..
[Machine Learning] Kaggle_데이터셋 분석_미 초소형 기업 밀도 예측 서론 이번 시간에는 현재 진행중인 미국 내 통계사의 산업통계 데이터를 통해 2022년 이후의 카운티 별(county) 초소형 기업(Microbusiness) 현황에 대해 간단한 분석을 해보고, 필자 나름대로의 데이터 전처리를 진행하려 합니다. *county : 자치주, 자치군 등 영미권의 행정 구역을 뜻합니다. (예컨대 미 주소에서 체로키 카운티, 달라스 카운티 등이 존재) 데이터셋의 목표이자 컴피티션의 목표는 북미 통계청에서 제공한 census 통계자료를 확인해보고, 이를 feature로 판단하여 train 세트에서 확인한 후 미래의 기업밀도를 예측하는 것입니다. # 목표 설정 # 북미의 지역구 별 초소형 기업의 밀도 분석 # 타겟(종속변수) : microbuisiness_density # 피쳐 : 밀..

728x90