분석 R(21)
-
Tidyverse (dplyr , tidyr)
Tidyverse (dplyr , tidyr) library(tidyverse) 1.1 Data Loading # library("readr") raw # library(tidyr) long_raw wide_raw  ## 1.3 Manupulating Data by *dplyr* packge ### 1.3.1 *select()* **Objective** : Reduce dataframe size to only desired variables for current task  `select` Function : select(data, ...) * `data` : d..
2019.03.17 -
Kaggle 데이터를 활용한 DataTable 문서화.
DataTable 다 돌아가지만, Posting 하기 위해서는 주석으로 올려야해서 주석으로 올립니다. html이나 rmd가 필요하다면 댓글에 글 남겨주세요. library(data.table) Data Loading  ```r mydata01 = Data setorder(Data , Subscribers ) head(mydata01) ``` ``` ## Rank Grade Channel name Video Uploads Subscribers ## 1: 4,097th B+ Xiaomi France 17 301 ## 2: 93rd A hairong zheng 492 394 ## 3: 3,517th B+ Jianpeng Li 232 437 ## 4: 3,..
2019.03.17 -
Markov Chain Monte Carlo Simulation
Markov Chain Monte Carlo Simulation LeeSungRyeong Bernoulli likelihood와 beta prior를 이용한 성공의 확률 theta의 사후분포 \[Beta(x+\alpha,N-x+\beta)\]에서 자료를 생성하여 히스토그림을 그려보자. 단, \(\alpha= \beta=5\)이고, \(N=10, x=8\)이다. 사후분포가 \(Beta(13,7)\)이므로 Beta 분포에서 자료를 50000개 생성하여 히스토그램을 그리면 다음과 같다. B.10000 = rbeta(10000,13,7) hist(B.10000,freq=F,breaks=100,xlim=c(0,1),ylim=c(0,5)) x=seq(from=0,to=1,by=0.01) lines(x,dbeta(x..
2019.03.16 -
Kaggle BlackFriday 데이터를 활용한 EDA
LeeSungRyeong 관련 파일 : BlackFriday.csv 필요 패키지 :tidyverse gridExtra Tips 그림 크기 방향 조절 하는 방법 ```{r , fig.align=‘center’ , fig.width= 12 , fig.height= 9} library warning message 안 나오게 하는 방법 ```{r, warning=FALSE , message=FALSE } Library Loadlibrary(tidyverse) library(gridExtra) 0. Data Load BlackFriday Click And Download The Data! 사용할 데이터 : BlackFriday.csvdt % mutate( buy_n = n()) %>% filter( buy_n >..
2019.03.16 -
Rmarkdown 사용 방법
LeeSungRyeong 0.1 Markdown? 텍스트 기반의 마크업 언어로 2004년 John Gruber에 의해 만들어졌다. 쉽게 쓰고 읽을 수 있으며 HTM로 변환 가능하다는 장점. 데이터 분석 과정에서 데이터에 접근하고 코드를 실행시키며 동시에 레포트를 작성이 가능하다. 0.2 설치 방법# install.packages("rmarkdown") 1.1 글자크기 조정 2 3 4 5 6# 1 #1 #============= ## 2 #2 #============= ### 3 #### 4 ##### 5 ###### 6 1.2 인용 표시 인용 표시# > **인용** 표시 1.3 목록 첫번째 두번째 세번째#1. 첫번째 #2. 두번째 #3. 세번째 빨강 녹색 파랑#* 빨강 # * 녹색 # * 파랑 1.4 L..
2019.03.16 -
[ R ] AUCROC and KS (H2O)
html이나 rmd가 필요하다면 댓글에 글 남겨주세요. Library Load library(dplyr) library(tidyverse) library(h2o) library(caret) library(riskr) How to install riskr Click Url library(devtools) install_local("C:/Users/lee/Desktop/riskr-master.zip") KS PLOT Func ks_plot % filter( left == 0 ) left1 % dplyr::select( left , p1 ) %>% filter( left == 1 ) cdf1
2019.03.16 -
Kaggle 올림픽 데이터를 활용한 EDA 2번째
Test5 html이나 rmd가 필요하다면 댓글에 글 남겨주세요. 관련 파일 : athlete_events.csv, noc_regions.csv 필요 패키지 :tidyverse Library Load library(tidyverse) 0. Data Load 및 이전 시험 진행과정 Kaggle 120 years of Olympic history: athletes and results에서 압축 파일을 다운 받은 후에 압축을 해제하시오 Kaggle site에 login 후 download 가능. URL : https://www.kaggle.com/heesoo37/120-years-of-olympic-history-athletes-and-results 사용할 데이터 : athlete_events.csv, noc..
2019.03.16 -
Kaggle 올림픽 데이터를 활용한 EDA 1번째
2018-11-05 TEST2-Solution html이나 rmd가 필요하다면 댓글에 글 남겨주세요. 관련 파일 : athlete_events.csv , noc_regions.csv 필요 패키지 :tidyverse 0. Package library(tidyverse) Problem 1. 데이터 불러오기 Kaggle 120 years of Olympic history: athletes and results에서 압축 파일을 다운 받은 후에 압축을 해제하시오 Kaggle site에 login 후 download 가능. URL : https://www.kaggle.com/heesoo37/120-years-of-olympic-history-athletes-and-results 사용할 데이터 : athlete_ev..
2019.03.16 -
알고리즘 체인과 파이프라인
알고리즘 체인과 파이프라인 데이터 변환 과정과 머신러닝을 연결해주는 파이프라인 from sklearn.svm import SVC from sklearn.datasets import load_breast_cancer from sklearn.model_selection import train_test_split from sklearn.preprocessing import MinMaxScaler # 데이터 적재와 분할 cancer = load_breast_cancer() X_train, X_test, y_train, y_test = train_test_split( cancer.data, cancer.target, random_state=0) # 훈련 데이터의 최솟값, 최댓값을 계산합니다 scaler = Min..
2018.01.25