EDA(5)
-
동행 복권 당첨 데이터 파이썬으로 분석해보기 (~962)
동행 복권 당첨 데이터를 가지고 추후에 통계치나 시각화를 통해서 분석해보고자 한다. dhlottery.co.kr/common.do?method=main 동행복권 당첨번호 1 18 28 31 34 43 보너스번호 40 1등 총 당첨금 233억원(12명 / 19억) 이전 회차 당첨정보 보기 다음 회차 당첨정보 보기 dhlottery.co.kr 데이터 불러오기 및 포맷 변경하기 (wide -> long) data = pd.read_csv("./dhlottery_data.csv") win_nums = np.vstack(data["win_nums"].\ apply(lambda x : np.array(ast.literal_eval(x))).values) win_nums_pd = pd.DataFrame(win_num..
2021.05.09 -
python EDA를 위한 자동 시각화 sweetviz 사용해보기
sweetviz를 통해서 데이터의 상관관계나 분포 그리고 통계치를 보여준다. 비슷한 패키지로는 pandas_profiling이 있다. 안정성면에서는 테스트 결과 pandas_profiling이 더 좋아 보였다. nan이 있으면 아직은 에러가 나는 이유가 있다. 그래도 좋은 점이 2가지 데이터셋을 비교한다던지, 뭔가를 비교한다고 했을 때 굉장히 유용해 보인다. 예를 들어 기존 타깃 0 , 1과 예측 타겟 0 ,1을 비교한다던지 하였을 때 어떻게 구성이 다른 지도 볼 수 있어 보이고 암튼 유용할 것 같아서 공유한다! import pandas as pd import sweetviz as sv df = pd.read_csv("./../../DATA/ENB2012_data.csv") ## 시각화 advert_re..
2020.07.18 -
Kaggle BlackFriday 데이터를 활용한 EDA
LeeSungRyeong 관련 파일 : BlackFriday.csv 필요 패키지 :tidyverse gridExtra Tips 그림 크기 방향 조절 하는 방법 ```{r , fig.align=‘center’ , fig.width= 12 , fig.height= 9} library warning message 안 나오게 하는 방법 ```{r, warning=FALSE , message=FALSE } Library Loadlibrary(tidyverse) library(gridExtra) 0. Data Load BlackFriday Click And Download The Data! 사용할 데이터 : BlackFriday.csvdt % mutate( buy_n = n()) %>% filter( buy_n >..
2019.03.16 -
Kaggle 올림픽 데이터를 활용한 EDA 2번째
Test5 html이나 rmd가 필요하다면 댓글에 글 남겨주세요. 관련 파일 : athlete_events.csv, noc_regions.csv 필요 패키지 :tidyverse Library Load library(tidyverse) 0. Data Load 및 이전 시험 진행과정 Kaggle 120 years of Olympic history: athletes and results에서 압축 파일을 다운 받은 후에 압축을 해제하시오 Kaggle site에 login 후 download 가능. URL : https://www.kaggle.com/heesoo37/120-years-of-olympic-history-athletes-and-results 사용할 데이터 : athlete_events.csv, noc..
2019.03.16 -
Kaggle 올림픽 데이터를 활용한 EDA 1번째
2018-11-05 TEST2-Solution html이나 rmd가 필요하다면 댓글에 글 남겨주세요. 관련 파일 : athlete_events.csv , noc_regions.csv 필요 패키지 :tidyverse 0. Package library(tidyverse) Problem 1. 데이터 불러오기 Kaggle 120 years of Olympic history: athletes and results에서 압축 파일을 다운 받은 후에 압축을 해제하시오 Kaggle site에 login 후 download 가능. URL : https://www.kaggle.com/heesoo37/120-years-of-olympic-history-athletes-and-results 사용할 데이터 : athlete_ev..
2019.03.16