본문 바로가기

728x90

분류 전체보기

(113)
파이썬_활용단계 ep.2 pandas를 써서 표 안의 원하는 것만 골라뽑기 인덱싱과 슬라이싱은 원하는 것만 골라 뽑는 인형뽑기 게임이라고 생각하는 건 어떨까요? 불필요한 것은 버리고 필요한 것만 싹 골라가는 능력은 중요합니다. 서론 ※ 주의 다소 반복적인 내용이 소개될 수 있습니다😂 다만 추후에 데이터 전처리나 다듬는 단계에서 기본기처럼 사용될 수 있으니 확실하게 알고 넘어가는 것이 중요할 것입니다! 🤷‍♀️ 다시 시리즈부터 확인해보겠습니다. Series 지난번에 시리즈는 인덱스 vs 값들의 리스트이 붙은 것임을 확인했었죠? 다시 한번 예시를 만들어보겠습니다. world_cup = pd.Series([1, 2, 3, 4], index=["프랑스", "아르헨티나", "크로아티아", "우루과이"]) world_cup 프랑스 1 아르헨티나 2 크로아티아 3 우루과이 4 dtype: ..
<인간이하> 후기. 왜 카타르 월드컵은 세계 평화에 기여할까? ※ 2023.02.14 일부 문법 수정 서론 왜 월드컵(지구촌 공동의 스포츠)는 세계 평화에 기여하는가 먼저 드는 의문점입니다. 왜 독서 리뷰에 갑자기 월드컵 이야기를 꺼냈을까요? 다 이유가 있습니다. 현재 아프리카의 오지부터, 북미, 남미, 심지어 월드컵 예선에서 떨어진 국가들까지, 월드컵의 열기로 들썩이고 있습니다. 특히나 2000년대 축구 이후, 이번 월드컵은 가장 이변이 많은 경기로 역대급이라는 이야기가 올라오고 있습니다. 월드컵 뿐만이 아닙니다. 올림픽, 월드베이스볼클래식, 아시안게임 등 국가와 국가를 넘나드는 스포츠 경기에는 막대한 규모의 자본과 거버넌스가 투입됩니다. 세계 사람 대다수가 즐길 수 있는, 그리고 공유할 수 있는 활동은 우리가 벌이는 모든 종류의 갈등을 느슨하게 합니다. 는 인간..
선형회귀 ep2. 결정계수에 관하여 지난 글에서와 같이, 선형회귀에서는 예측값과 실제값 사이의 차이, 즉 오차들을 보고 모델의 성능을 결정한다고 언급했습니다. 이번에는 이 오차들에 대한 부분입니다. SSR과 SST에 대한 용어는 공식이 들어있지 않는한, 용어 자체에 대한 정의가 쟁점인 것 같습니다. 용어에 대해서 탐구하는 것이 머신러닝이나 회귀분석에서 없어선 안될 요소는 아니기 때문에, 이런 것이 존재한다는 것만 이해하고 넘어가겠습니다. 필자는 아래 티스토리(씩씩한 IT 블로그)님의 글을 참고했습니다. https://sosoeasy.tistory.com/371 R² 의 공식에 대하여 먼저 SSE부터 볼까요 천천히 설명해보겠습니다. SSE는 Sum of Squares estimate of Error 입니다. 일반적으로 설명이 안되는 변동이라..
Machine Learning ep.1 선형회귀 기초개념 & 마을의 보험료 예측 선형회귀란? 우리의 일상에서는 많은 지표와 숫자들이 있습니다. 지표와 숫자, 개체와 갯수, 데이터와 데이터 등의 관계에서 관계를 찾을 수도 있는데요. 이것이 저것을 불러오고, 어떤 것이 저런 것을 가져오는, 일종의 인과관계 를 상상할 수도 있습니다. 선형회귀는 여러가지 데이터들을 활용하여 연속형 변수인 목표 변수를 예측하는 것이 목적입니다. 즉, 연속된 변수를 우리가 예측하는 최적의 직선 그것을 찾는 알고리즘이 바로 선형 회귀 (Linear Regression) 입니다. 선형 회귀는 머신러닝의 기초적인 알고리즘 입니다. 복잡한 알고리즘에 비해 예측력이 떨어지지만 데이터의 특성이 복잡하지 않을 땐 더 쉽고 빠른 예측이 가능하기 때문에 자주 사용됩니다. 선형 회귀는 다른 모델과의 성능을 비교하는 기준 모델로..
파이썬_활용단계 ep.1 Let's go pandas 월드 서론 pandas는 왜 쓰일까요? numpy와 pandas를 배운 순간 실질적으로 데이터 분석 작업에 한 걸음 가까워지게 됩니다. 마치 판다들이 대나무를 이용하는 것처럼 자유롭게 사용하는 것이 중요합니다. 자, numpy는 여러분이 다차원 배열 데이터를 다루는 라이브러리로 각종 행렬과 계산에 특성화했었죠? 이는 수학, 분석, 모델링 등에서 다양하게 활용됩니다. 우리가 다르는 데이터는 시계열(Series)와 표(Table)가 대부분으로, pandas에서는 이 series와 행, 인덱스, 열로 구분되어 있는 DataFrame을 다룹니다. 실제로 데이터를 다룬다는 느낌이 강할 것입니다. 준비 기본적으로 jupyter notebook을 쓰시는 경우 아래 명령어로 설치합니다. pip install pandas 그..
파이썬_응용단계 ep.8 난수와 샘플링, 데이터 카운팅! 서론 난수? 임의의 수? 우리가 일반적으로 난수를 발생시킬 때, 정말 무작위로 컴퓨터 내에서 아무거나 뽑아내는 것이라고 생각하는 경향이 있습니다. 무작위란 무엇일까요? 랜덤이란 굉장히 인간적인 개념일지도 모릅니다. 수학이나 통계에서 의도가 들어가지 않은 것이나, 말그대로 규칙성을 아예 갖지 않는 것은 우리가 포착하기 어렵습니다. 컴퓨터 프로그램에서 발생하는 무작위의 수는 사실 엄격한 의미의 무작위가 아닙니다. 우리가 난수를 뽑을 때면 컴퓨터는 일련의 작업을 거칩니다. 어떠한 특정한 시작 숫자를 정해주면 컴퓨터가 정해진 알고리즘에 의해 마치 난수처럼 보이는 수열을 생성할 수 있는데요. 이를 시드(seed)라고 합니다. 이번 시간에는 numpy에서 난수와 샘플링에 대해서 알아봅니다. 난수 발생과 카운트 np..

728x90