본문 바로가기

728x90

머신러닝/지도학습

(16)
[Machine Learning] Kaggle_연습사례 분석_Spaceship_titanic_2 서론 지난 시간에 이어서, 잘 전송된 승객의 수를 예측하는 과정을 서술하겠습니다. 첫번째 글에서는 kaggle의 Spaceship-titanic 의 데이터셋을 분석하여 LightGBM을 통해 알고리즘 모델을 넣고, 전송 승객을 예측하는 모델을 도출했습니다. 추가적으로 정확도 점수도 분석해보고, 변수 중요도(feature important)도 잠깐 도출했습니다. 데이터 자체가 titanic의 데이터셋과 유사한 형태와 목표를 갖고 있기 때문에 큰 어려움은 없을 것이라고 예상됩니다. 이번에는 test.csv 파일 로드부터 시작합니다! 이번 파일에서도 PassengerId를 인덱스로 바로 들고 왔습니다. 파일 경로는 따로 원본 데이터셋을 다운받은 경로입니다. df = pd.read_csv('C:\myPyCode..
[Machine Learning] Kaggle_연습사례 분석_Spaceship_titanic 서론 이번시간에는 Kaggle의 완전 기초, 시작단계(Getting Started) 컴피티션에 놓여져있는 Spaceship Titanic 데이터에 대해서 개인적으로 분석한 머신러닝 사례를 진행해 보고자 합니다. 먼저, 원본 데이터 링크입니다. https://www.kaggle.com/competitions/spaceship-titanic Spaceship Titanic | Kaggle www.kaggle.com 제 노트북은 아래에서 보실 수 있습니다. 빠르게 요약된 버전을 보시려면, 아래 링크를 보셔도 무방합니다! (처음에 파일 로드할 시의 경로만 다릅니다) https://www.kaggle.com/code/apatheia0/space-titanic-lightgbm-test/notebook 먼저 몇가지 ..
[Machine Learning] Naive_Bayes 모델_ep.2 colab 검색기 서론 지난 시간에서 나이브 베이즈 모델을 통해 spam mail 리스트 중에서 특정한 단어가 포함되어 있을 시 자동으로 spam으로 표시하는 자연어 처리에 대해서 실습해보았습니다. 이번 시간에는 진행했던 파일을 갖고, 우리가 특정한 단어를 입력하면 "스팸이다", "스팸이 아니다" 등 문장으로 구분해주는 알고리즘을 만들어 보고자 합니다. 먼저 지난 시간에 했던 모델입니다. # 나이브 베이즈 모델 from sklearn.naive_bayes import MultinomialNB # 모델링 model = MultinomialNB() model.fit(X_train, y_train) pred = model.predict(X_test) pred array([0, 1, 1, ..., 0, 0, 0]) 혼동 행렬(c..
[Machine Learning] Naive_Bayes 모델 사례_spam mail 분석 서론 Naive Bayes 모델은 통계학에서의 베이즈 정리에서 응용한 자연어 처리용 분류 모델입니다. 이후에 나오는 모델에 비해 단순하고 낮은 수준의 모델이지만 이 모델을 사용하는 이유는 속도가 빠르고 순진(naive)하기 때문에 쉬운 수준에서의 알고리즘 분석에는 유용했기 때문입니다. 나이브 베이즈를 위해서는 베이즈 정리에 대해서 잠깐 알아봐야 하는데요? 많은 사전, 블로그에서는 베이즈 정리에 대한 다양한 정의를 소개하고 있습니다만, 필자는 이 설명을 선호합니다. 이전의 경험과 현재의 증거를 토대로 어떤 사건의 확률을 추론하는 알고리즘 이 설명이 왜 나왔을까요. 베이즈 정리의 본 공식입니다. 사건 B가 발생함으로 인해 , 사건 A의 확률이 어떻게 변화하는지를 표현한 정리입니다. 즉, 베이즈 정리를 쓰면 ..
[Machine Learning] 결정트리_회귀(Regression) 실습 사례- 보험비 서론 보험료는 우리 삶에 큰 영향을 끼치는 중요한 수치 중 하나입니다. 어떤 요소가 보험료에 영향을 미치고, 어떤 것이 보험료를 낮추는지 알아맞춘다면 여러분이 더 윤택한 삶을 사는데 도움을 주겠죠? 질병의 있고 없음이 보험료에 영향을 미칠까요? 성별이 영향을 미칠까요. 혹은 흡연 여부가 영향을 미칠까요? 이름이 영향을 미치진 않을까요? 이번 시간에는 지난번에 했던 Decision Tree를 이용하여, 범주형 데이터가 아닌 연속형 데이터를 사용하여 회귀 문제로 해외 건강보험에 대한 실제 사례를 분석해보겠습니다. 원본 csv 데이터는 캐글의 insuarance 데이터로, 짧은 크기에 feature를 갖고 있는 데이터 프레임 입니다. 아래 원본 링크에서 보실 수 있습니다. https://www.kaggle.c..
[Machine Learning] 결정트리 알고리즘 분류 실습사례_wine 서론 얼마 있으면 이쁜 트리가 거리에서 많이 보이는 크리스마스가 시작되네요! 이번 시간에는 지난번 실시했던 똑같은 wine csv 파일을 통해 결정트리 문제를 진행해보겠습니다. 원본은 동일한 csv파일이고, 분류하는 알고리즘만 변형시킨 것입니다. 목표는 각 feature별로 조건이 분기되는 트리를 만드는 것입니다. 분류문제의 평가 점수를 계산한 후에, plot_tree를 통해 시각화가 어떻게 구현되는지 보게될 것입니다. 마찬가지로, 실습을 서술한 글이기 때문에, 오류와 오판이 있을 수 있음에 양해 드립니다 먼저 결정트리(Decision Tree)란 무엇인지 간단하게 보겠습니다. Decision Tree 개념 기본적으로 분류 문제와 회귀 문제를 해결하는 툴로 나뉩니다. 분류문제를 DecisIon Tree ..

728x90