본문 바로가기

728x90

kaggle

(8)
[DeepLearning] 이미지 구분 모델_Pokemon 809 세트_ep.2 지난 시간의 포켓몬스터 데이터셋의 이미지 처리에 이어서, 이번에도 여러가지 신경망 모델을 사용하여 학습하고 시각화 해보는 시간을 갖도록 하겠습니다. 이번에 사용할 모델은 ResNet-50입니다. 1. ResNet에 대한 잠깐 설명 ResNet(잔차 신경망, 레스넷)은 스킵 커넥션을 이용해서 잔차를 학습하도록 만든 알고리즘으로, Resnet 이전의 일반적인 CNN 신경망보다 예측 정확도가 높습니다. Residual(잔차) : 관측치와 회귀식의 예측치와의 차이 Network(신경망) : 기존의 모델보다 진보된 신경망 2. ResNet의 특징 기존의 방식보다 더 빠른 Short cut을 진행시킵니다. 1) 일정 시점마다 input x 자체를 skip connection을 통해서 연결 2) gradient fl..
[DeepLearning] 이미지 구분 모델_Pokemon 809 세트_ep.1 이번시간에는 Kaggle의 데이터셋 중 pokemon image dataset을 활용하여, 이미지를 구분하는 모델을 생성하도록 하겠습니다. Pokemon Image Dataset | Kaggle Pokemon Image Dataset Pokemon image dataset www.kaggle.com 데이터는 809종의 포켓몬 이름과 그에 따른 속성이 있는 csv파일과 포켓몬 이미지 폴더로 나누어져 있습니다. 이번 알고리즘의 경우, 속성이나 범주형 데이터는 제외하려 했기 때문에, csv파일은 없이, 이미지 만으로 진행하고자 합니다. 물론 딥러닝 모델은 지난번과 같이, 파이토치를 사용합니다. 필요한 패키지를 가져오는 것부터 시작합니다. # pytorch 라이브러리 import torch import torc..
[Machine Learning] 해외 IT직종 근무자 Layoff 분석_KMeans Kaggle 데이터셋 중 Technology Company Layoffs(2022-2023) 을 분석한 자료입니다. 이번 시간에는 캐글 데이터를 확인하던 중, 최근에 올라온 흥미로운 데이터셋이 있어 몇가지 확인해보고, 비지도학습을 넣어볼 예정입니다. 미래의 우리와 관련이 있을 수도 있는 Technology company의 근무자 중 layoff 상태가 된 인원의 분석입니다. layoffs는 기업측의 사정으로 인해 일시적 해고를 의미합니다. 여기서는 '정리해고'나 '구조조정' 정도의 의미로 통할 수 있습니다. 안타깝게도 한국의 사례는 없고 미국과 캐나다, 일부 유럽의 사례를 조사한 데이터입니다. 현재 기준, 제출된지 하루 밖에 되지않은 따끈따끈한 통계자료입니다. 잦은 구조조정은 우리나라만의 문제는 아니었군..
[Machine Learning] Kaggle_데이터셋 분석_미 초소형 기업 밀도 예측_ep.2 서론 바로 지난시간에 이어서, 미국의 자치구별 초소형 기업의 밀도에 대한 분석 데이터입니다. 같은 데이터를 그대로 이어서 사용했고 표준화 스케일링을 진행한 상태입니다. 이번엔 KNN 모델을 사용해서 회귀 문제를 제시해보았는데요? * K-Nearest Neighbors Regressor 이때 KNN모델이란, 주변의 가장 인접한(Nearst) 이웃의(Neighbors) K개의 샘플을 이용해서 임의의 값을 예측하는 방식을 의미합니다. K가 5개일 경우, 5개의 가장 가까웃 이웃을 찾아 평균을 계산해서 값을 예측합니다. 지난번에는 KNN모델의 분류문제를 해결하는데 사용했었죠? https://astart.tistory.com/34 [Machine Learning] KNN 알고리즘 실습사례_wine 분류 KNN A..
[Machine Learning] Kaggle_데이터셋 분석_미 초소형 기업 밀도 예측 서론 이번 시간에는 현재 진행중인 미국 내 통계사의 산업통계 데이터를 통해 2022년 이후의 카운티 별(county) 초소형 기업(Microbusiness) 현황에 대해 간단한 분석을 해보고, 필자 나름대로의 데이터 전처리를 진행하려 합니다. *county : 자치주, 자치군 등 영미권의 행정 구역을 뜻합니다. (예컨대 미 주소에서 체로키 카운티, 달라스 카운티 등이 존재) 데이터셋의 목표이자 컴피티션의 목표는 북미 통계청에서 제공한 census 통계자료를 확인해보고, 이를 feature로 판단하여 train 세트에서 확인한 후 미래의 기업밀도를 예측하는 것입니다. # 목표 설정 # 북미의 지역구 별 초소형 기업의 밀도 분석 # 타겟(종속변수) : microbuisiness_density # 피쳐 : 밀..
[Machine Learning] Kaggle_데이터셋 분석_Video_Games_Sales.1 서론 이번 시간에는, 필자의 자유 주제로 kaggle에 분석용 데이터(Datasets)에 공유되어 있는 Video Game Sales를 활용해서, 여러가지 분석을 진행해보고자 합니다! 데이터셋 자체에 특별한 목표는 없지만, 일정한 흐름들은 있는데요. 바로 Global sales(전세계 판매량)과 그에 따른 platform이나, publisher(회사)의 순위들 입니다. 실제로 1100여건이 넘는 코드들을 보면 매우 다양한 방법으로 비디오 게임 데이터를 시각화한 그래프를 보실 수 있습니다. 아래는 원본 입니다. https://www.kaggle.com/datasets/gregorut/videogamesales Video Game Sales Analyze sales data from more than 16,..

728x90