분류 전체보기 (113) 썸네일형 리스트형 [Machine Learning] PCA + Dimension 축소 학습 서론 이전까지 머신러닝의 모델에서는 어느정도 column들이 정제된, 즉 피쳐가 보기좋게 들어가있는 모델들을 확인해보았습니다. 하지만 현실에서 마주하는 여러가지 상황에서, 우리는 column들이 항상 잘 정제되어 있는 데이터만을 보긴 어렵습니다. 종종 변수가 연관관계를 지닐지, 지니지 않을지 정말 구분하기도 어려운 데이터프레임을 볼 때도 있습니다. 이러한 상황에서, 우리는 규칙성이 없던 것에 규칙성을 만들어보려고 하는 여러가지 시도들을 해보게 됩니다. 그러한 시도들 중의 하나가 바로 PCA 입니다. Principal Component Analysis 본 글은 공돌이의 수학정리노트 에서 영감을 받았습니다. ▼링크 https://angeloyeo.github.io/2019/07/27/PCA.html 주성분 .. [Baekjoon] 백준 #10871번 파이썬 해답 10891번 백준의 단계별 풀어보기 중 1차원 배열에 들어있는 문제입니다. 배열에 대한 사전지식이 없으면 '어?' 할 수 있는 알고리즘입니다. 1차원 배열에 대해서 기초적인 지식을 확인하는 부분입니다. 필자의 게시글 중 파이썬의 응용단계, numpy편에서 이에 대해 다룬적이 있습니다. https://astart.tistory.com/20 파이썬_응용단계 ep.2 Numpy 튜토리얼 서론 추후 Pandas를 원활하게 쓰기 위해, numpy는 중간단계로서 거쳐갑니다. 왜 numpy가 필요하다고 했죠? 강력한 행렬 조작, 연산을 시작할 수 있기 때문에 필요하다고 했습니다. 즉, 목적지가 아닙 astart.tistory.com 1차원 배열은 쉽게 말해 같은 자료형으로 연속된 메모리공간을 할당하여 사용하는 것입니.. [Baekjoon] 백준 #1110번 파이썬 해답 (애국자 ver) 백준의 반복문 문제 중 while문을 사용한 사례입니다. 단계별 → 반복문에서 마지막에 위치하고 있습니다. 일단 문제를 읽어보겠습니다. 보았을때 머릿속에서 바로 팍! 떠오르진 않습니다. 중요한점은 N의 사이클 길이를 구한다는 점입니다. 생각할 시간 . . str을 써서 두자리 수를 입력했을때, 10의 자릿수와 1의 자릿수를 분리하고 이를 따로 때네어 하는 계산방법이 있을 것이라고 생각됩니다. 다만 잘 되지 않았습니다. . . 생각할 시간 x 2 . . 잠시 멈추고 굳이 str을 쓰지 않아도 두자리수를 떼내야 한다면 나눗셈을 사용해서 떼낼수 있지 않을까요. 나머지와 몫을 떼서 10을 곱하면 방법이 나오지 않을까 합니다. 몫 = N // 10 나머지 = N % 10 실제로 생각을 편하게 하기 위해서 한글로 .. [Baekjoon] 백준 #11022번 파이썬 해답 백준의 단계별 풀어보기입니다. 반복문 문제 중, 7번에 위치하고 있군요. 11022번 문제 풀이 T = int(input()) sum = 0 for i in range(T): A, B= map(int, input().split()) i = A+B sum = sum+1 print(f"Case #{sum}: {A} + {B} = {i}") 간단하게, 파이썬의 f-문자열 포맷팅 방법을 사용해서 진행합니다. format함수를 사용해도 가능을 할것 같지만, 상당히 길어질 것으로 예상됩니다. 기본형태 f" 입력할 문자열 {변수1}" 먼저 첫째줄에 입력하는 문자를 T로 받아줍니다. input()을 넣고 외부에 int를 씌어 정수로 합니다. for문을 사용해봅시다. i를 변수로 받아서 몇번 반복할지 결정해야 하죠? 반.. [Feature engineering] 데이터 처리 사례_2021 서울시 농산물 가격 분석_2 서론 지난 시간에 이어서, 서울시 농수축산물 가격 데이터에 대해서 분석을 진행합니다. 몇가지 수정되야 할 점이 있어서 , 따로 정리했습니다. 1) 2021년 한 해의 데이터만으로는 변화하는 양상을 보기 어려울 것으로 판단, 2019년과 2020년의 데이터를 조회하여 3년간의 양상을 살펴봅니다. 2) 날짜 데이터인 년도-월에 대해서 월을 빼고 , 연도만 조회해서 사용합니다. 3) 이 날짜 데이터도 독립변수에 포함하게 됩니다. 4) DecisionTree 회귀 모델을 통해서 score를 높이게 됩니다. 시작 df_19 = pd.read_csv('생필품 농수축산물 가격 정보(2019년).csv', encoding = 'cp949') df_20 = pd.read_csv('생필품 농수축산물 가격 정보(2020년).. [Feature engineering] 데이터 처리 사례_2021 서울시 농산물 가격 분석_1 서론 이번 시간에는 사이드 프로젝트로 진행했던 2021년의 서울시 먹거리 가격정보에 대한 데이터셋으로 데이터 인사이트 및 전처리를 진행해볼 예정입니다. 출처는 서울 열린데이터 광장(https://data.seoul.go.kr/)에서 농수축산물 가격 정보를 열람했습니다. 추가적으로, 열린 데이터 광장은 인공지능 개발을 위한 공공 학습 데이터, 시민을 위한 열린 데이터를 손쉽게 활용할 수 있도록 무료로 공개하여 더 많은 연구 자료가 발전할 수 있도록 노력하고 있습니다. 독자분들도 실습을 위한 학습 데이터셋이 필요할 때, kaggle에서 영어 데이터만 읽는 것도 지쳤다면, 서울 열린데이터 광장도 추천 드립니다. 한글인 점이 매우 마음에 드네요. 시작하기에 앞서, 사용한 학습 종류는 지도학습의 회귀(Regres.. 이전 1 ··· 9 10 11 12 13 14 15 ··· 19 다음