본문 바로가기

728x90

LinearRegression

(5)
[Feature engineering] 데이터 처리 사례_2021 서울시 농산물 가격 분석_2 서론 지난 시간에 이어서, 서울시 농수축산물 가격 데이터에 대해서 분석을 진행합니다. 몇가지 수정되야 할 점이 있어서 , 따로 정리했습니다. 1) 2021년 한 해의 데이터만으로는 변화하는 양상을 보기 어려울 것으로 판단, 2019년과 2020년의 데이터를 조회하여 3년간의 양상을 살펴봅니다. 2) 날짜 데이터인 년도-월에 대해서 월을 빼고 , 연도만 조회해서 사용합니다. 3) 이 날짜 데이터도 독립변수에 포함하게 됩니다. 4) DecisionTree 회귀 모델을 통해서 score를 높이게 됩니다. 시작 df_19 = pd.read_csv('생필품 농수축산물 가격 정보(2019년).csv', encoding = 'cp949') df_20 = pd.read_csv('생필품 농수축산물 가격 정보(2020년)..
[Feature engineering] 데이터 처리 사례_2021 서울시 농산물 가격 분석_1 서론 이번 시간에는 사이드 프로젝트로 진행했던 2021년의 서울시 먹거리 가격정보에 대한 데이터셋으로 데이터 인사이트 및 전처리를 진행해볼 예정입니다. 출처는 서울 열린데이터 광장(https://data.seoul.go.kr/)에서 농수축산물 가격 정보를 열람했습니다. 추가적으로, 열린 데이터 광장은 인공지능 개발을 위한 공공 학습 데이터, 시민을 위한 열린 데이터를 손쉽게 활용할 수 있도록 무료로 공개하여 더 많은 연구 자료가 발전할 수 있도록 노력하고 있습니다. 독자분들도 실습을 위한 학습 데이터셋이 필요할 때, kaggle에서 영어 데이터만 읽는 것도 지쳤다면, 서울 열린데이터 광장도 추천 드립니다. 한글인 점이 매우 마음에 드네요. 시작하기에 앞서, 사용한 학습 종류는 지도학습의 회귀(Regres..
[Machine Learning] Kaggle_데이터셋 분석_미 초소형 기업 밀도 예측 서론 이번 시간에는 현재 진행중인 미국 내 통계사의 산업통계 데이터를 통해 2022년 이후의 카운티 별(county) 초소형 기업(Microbusiness) 현황에 대해 간단한 분석을 해보고, 필자 나름대로의 데이터 전처리를 진행하려 합니다. *county : 자치주, 자치군 등 영미권의 행정 구역을 뜻합니다. (예컨대 미 주소에서 체로키 카운티, 달라스 카운티 등이 존재) 데이터셋의 목표이자 컴피티션의 목표는 북미 통계청에서 제공한 census 통계자료를 확인해보고, 이를 feature로 판단하여 train 세트에서 확인한 후 미래의 기업밀도를 예측하는 것입니다. # 목표 설정 # 북미의 지역구 별 초소형 기업의 밀도 분석 # 타겟(종속변수) : microbuisiness_density # 피쳐 : 밀..
선형회귀 ep2. 결정계수에 관하여 지난 글에서와 같이, 선형회귀에서는 예측값과 실제값 사이의 차이, 즉 오차들을 보고 모델의 성능을 결정한다고 언급했습니다. 이번에는 이 오차들에 대한 부분입니다. SSR과 SST에 대한 용어는 공식이 들어있지 않는한, 용어 자체에 대한 정의가 쟁점인 것 같습니다. 용어에 대해서 탐구하는 것이 머신러닝이나 회귀분석에서 없어선 안될 요소는 아니기 때문에, 이런 것이 존재한다는 것만 이해하고 넘어가겠습니다. 필자는 아래 티스토리(씩씩한 IT 블로그)님의 글을 참고했습니다. https://sosoeasy.tistory.com/371 R² 의 공식에 대하여 먼저 SSE부터 볼까요 천천히 설명해보겠습니다. SSE는 Sum of Squares estimate of Error 입니다. 일반적으로 설명이 안되는 변동이라..
Machine Learning ep.1 선형회귀 기초개념 & 마을의 보험료 예측 선형회귀란? 우리의 일상에서는 많은 지표와 숫자들이 있습니다. 지표와 숫자, 개체와 갯수, 데이터와 데이터 등의 관계에서 관계를 찾을 수도 있는데요. 이것이 저것을 불러오고, 어떤 것이 저런 것을 가져오는, 일종의 인과관계 를 상상할 수도 있습니다. 선형회귀는 여러가지 데이터들을 활용하여 연속형 변수인 목표 변수를 예측하는 것이 목적입니다. 즉, 연속된 변수를 우리가 예측하는 최적의 직선 그것을 찾는 알고리즘이 바로 선형 회귀 (Linear Regression) 입니다. 선형 회귀는 머신러닝의 기초적인 알고리즘 입니다. 복잡한 알고리즘에 비해 예측력이 떨어지지만 데이터의 특성이 복잡하지 않을 땐 더 쉽고 빠른 예측이 가능하기 때문에 자주 사용됩니다. 선형 회귀는 다른 모델과의 성능을 비교하는 기준 모델로..

728x90