본문 바로가기

728x90

데이터분석

(5)
[Feature engineering] 데이터 처리 사례_2021 서울시 농산물 가격 분석_2 서론 지난 시간에 이어서, 서울시 농수축산물 가격 데이터에 대해서 분석을 진행합니다. 몇가지 수정되야 할 점이 있어서 , 따로 정리했습니다. 1) 2021년 한 해의 데이터만으로는 변화하는 양상을 보기 어려울 것으로 판단, 2019년과 2020년의 데이터를 조회하여 3년간의 양상을 살펴봅니다. 2) 날짜 데이터인 년도-월에 대해서 월을 빼고 , 연도만 조회해서 사용합니다. 3) 이 날짜 데이터도 독립변수에 포함하게 됩니다. 4) DecisionTree 회귀 모델을 통해서 score를 높이게 됩니다. 시작 df_19 = pd.read_csv('생필품 농수축산물 가격 정보(2019년).csv', encoding = 'cp949') df_20 = pd.read_csv('생필품 농수축산물 가격 정보(2020년)..
[Feature engineering] 데이터 처리 사례_2021 서울시 농산물 가격 분석_1 서론 이번 시간에는 사이드 프로젝트로 진행했던 2021년의 서울시 먹거리 가격정보에 대한 데이터셋으로 데이터 인사이트 및 전처리를 진행해볼 예정입니다. 출처는 서울 열린데이터 광장(https://data.seoul.go.kr/)에서 농수축산물 가격 정보를 열람했습니다. 추가적으로, 열린 데이터 광장은 인공지능 개발을 위한 공공 학습 데이터, 시민을 위한 열린 데이터를 손쉽게 활용할 수 있도록 무료로 공개하여 더 많은 연구 자료가 발전할 수 있도록 노력하고 있습니다. 독자분들도 실습을 위한 학습 데이터셋이 필요할 때, kaggle에서 영어 데이터만 읽는 것도 지쳤다면, 서울 열린데이터 광장도 추천 드립니다. 한글인 점이 매우 마음에 드네요. 시작하기에 앞서, 사용한 학습 종류는 지도학습의 회귀(Regres..
[Machine Learning] Kaggle_데이터셋 분석_Video_Games_Sales.1 서론 이번 시간에는, 필자의 자유 주제로 kaggle에 분석용 데이터(Datasets)에 공유되어 있는 Video Game Sales를 활용해서, 여러가지 분석을 진행해보고자 합니다! 데이터셋 자체에 특별한 목표는 없지만, 일정한 흐름들은 있는데요. 바로 Global sales(전세계 판매량)과 그에 따른 platform이나, publisher(회사)의 순위들 입니다. 실제로 1100여건이 넘는 코드들을 보면 매우 다양한 방법으로 비디오 게임 데이터를 시각화한 그래프를 보실 수 있습니다. 아래는 원본 입니다. https://www.kaggle.com/datasets/gregorut/videogamesales Video Game Sales Analyze sales data from more than 16,..
파이썬_활용단계 ep.1 Let's go pandas 월드 서론 pandas는 왜 쓰일까요? numpy와 pandas를 배운 순간 실질적으로 데이터 분석 작업에 한 걸음 가까워지게 됩니다. 마치 판다들이 대나무를 이용하는 것처럼 자유롭게 사용하는 것이 중요합니다. 자, numpy는 여러분이 다차원 배열 데이터를 다루는 라이브러리로 각종 행렬과 계산에 특성화했었죠? 이는 수학, 분석, 모델링 등에서 다양하게 활용됩니다. 우리가 다르는 데이터는 시계열(Series)와 표(Table)가 대부분으로, pandas에서는 이 series와 행, 인덱스, 열로 구분되어 있는 DataFrame을 다룹니다. 실제로 데이터를 다룬다는 느낌이 강할 것입니다. 준비 기본적으로 jupyter notebook을 쓰시는 경우 아래 명령어로 설치합니다. pip install pandas 그..
파이썬_응용단계 ep1. Numpy와 함께 딥러닝의 세계로 그 프로그래밍 언어가 사라지지 않는 이유 세상에는 다양한 프로그래밍 언어가 생겨났다가, 인기를 끌기도 하고, 사람들의 기억에 잊혀지기도 하고, 극소수가 사용하지만 꾸준히 살아남기도 합니다. 그러다가 존재감이 사라지는 언어도 존재합니다. Visual Basic.NET, Elm 등이 그 사례입니다. 하지만 어떠한 프로그래밍 언어들은 계속 쓰이는 이유는 무엇일까요? 그것이 광범위하게 쓰이기 때문입니다 C나 C++ 등 사용법이 어렵지만 게임 개발 등 많은 곳에서 쓰이는 언어는 그 사용자의 수가 곧 힘이 되기 때문에, 수명이 계속 늘어납니다. Java script, java, python 등도 동일합니다. 굉장히 강력한 기능을 제공합니다. 특히 파이썬은 배열화된 연산에 강력한 기능을 제공합니다. 그래서 데이터 분..

728x90