분류 전체보기(833)
-
Tidyverse (dplyr , tidyr)
Tidyverse (dplyr , tidyr) library(tidyverse) 1.1 Data Loading # library("readr") raw # library(tidyr) long_raw wide_raw ![](../img/rstudio-cheatsheet-spread-gather-sep-unite.png ) ## 1.3 Manupulating Data by *dplyr* packge ### 1.3.1 *select()* **Objective** : Reduce dataframe size to only desired variables for current task ![](../img/select.png) `select` Function : select(data, ...) * `data` : d..
2019.03.17 -
Kaggle 데이터를 활용한 DataTable 문서화.
DataTable 다 돌아가지만, Posting 하기 위해서는 주석으로 올려야해서 주석으로 올립니다. html이나 rmd가 필요하다면 댓글에 글 남겨주세요. library(data.table) Data Loading ![](./../img/dt/dt_reorder.PNG) ```r mydata01 = Data setorder(Data , Subscribers ) head(mydata01) ``` ``` ## Rank Grade Channel name Video Uploads Subscribers ## 1: 4,097th B+ Xiaomi France 17 301 ## 2: 93rd A hairong zheng 492 394 ## 3: 3,517th B+ Jianpeng Li 232 437 ## 4: 3,..
2019.03.17 -
The relativistic discriminator: a key element missing from standard GAN Review
https://arxiv.org/abs/1807.00734 나오게 된 배경 일반적인 GAN에서 Discriminator가 Gradient 가 소실되는 현상이 종종 일어나서 학습이 안되는 경우가 있음. 그리고 이러한 GAN을 향상시키기위해 LSGAN, Wasserstein Distance 와 Gradient Penalty를 사용한 WGAN-GP가 나왔고 이러한 GAN들은 Integral probability Metrics를 기반으로한 논문들이 많이 나오게 됨. IPM을 기반으로 한 GAN들은 Fake 와 Real을 완벽하게 구분하는 것을 방지함으로써, 학습을 계속했을 때 Gradient가 사라지는 현상 없이 학습을 시킬 수 있음. Integral Probability Metric(IPM) IPM 이란 각 ..
2019.03.16 -
Markov Chain Monte Carlo Simulation
Markov Chain Monte Carlo Simulation LeeSungRyeong Bernoulli likelihood와 beta prior를 이용한 성공의 확률 theta의 사후분포 \[Beta(x+\alpha,N-x+\beta)\]에서 자료를 생성하여 히스토그림을 그려보자. 단, \(\alpha= \beta=5\)이고, \(N=10, x=8\)이다. 사후분포가 \(Beta(13,7)\)이므로 Beta 분포에서 자료를 50000개 생성하여 히스토그램을 그리면 다음과 같다. B.10000 = rbeta(10000,13,7) hist(B.10000,freq=F,breaks=100,xlim=c(0,1),ylim=c(0,5)) x=seq(from=0,to=1,by=0.01) lines(x,dbeta(x..
2019.03.16 -
Kaggle BlackFriday 데이터를 활용한 EDA
LeeSungRyeong 관련 파일 : BlackFriday.csv 필요 패키지 :tidyverse gridExtra Tips 그림 크기 방향 조절 하는 방법 ```{r , fig.align=‘center’ , fig.width= 12 , fig.height= 9} library warning message 안 나오게 하는 방법 ```{r, warning=FALSE , message=FALSE } Library Loadlibrary(tidyverse) library(gridExtra) 0. Data Load BlackFriday Click And Download The Data! 사용할 데이터 : BlackFriday.csvdt % mutate( buy_n = n()) %>% filter( buy_n >..
2019.03.16 -
Rmarkdown 사용 방법
LeeSungRyeong 0.1 Markdown? 텍스트 기반의 마크업 언어로 2004년 John Gruber에 의해 만들어졌다. 쉽게 쓰고 읽을 수 있으며 HTM로 변환 가능하다는 장점. 데이터 분석 과정에서 데이터에 접근하고 코드를 실행시키며 동시에 레포트를 작성이 가능하다. 0.2 설치 방법# install.packages("rmarkdown") 1.1 글자크기 조정 2 3 4 5 6# 1 #1 #============= ## 2 #2 #============= ### 3 #### 4 ##### 5 ###### 6 1.2 인용 표시 인용 표시# > **인용** 표시 1.3 목록 첫번째 두번째 세번째#1. 첫번째 #2. 두번째 #3. 세번째 빨강 녹색 파랑#* 빨강 # * 녹색 # * 파랑 1.4 L..
2019.03.16 -
[ R ] AUCROC and KS (H2O)
html이나 rmd가 필요하다면 댓글에 글 남겨주세요. Library Load library(dplyr) library(tidyverse) library(h2o) library(caret) library(riskr) How to install riskr Click Url library(devtools) install_local("C:/Users/lee/Desktop/riskr-master.zip") KS PLOT Func ks_plot % filter( left == 0 ) left1 % dplyr::select( left , p1 ) %>% filter( left == 1 ) cdf1
2019.03.16 -
Kaggle 올림픽 데이터를 활용한 EDA 2번째
Test5 html이나 rmd가 필요하다면 댓글에 글 남겨주세요. 관련 파일 : athlete_events.csv, noc_regions.csv 필요 패키지 :tidyverse Library Load library(tidyverse) 0. Data Load 및 이전 시험 진행과정 Kaggle 120 years of Olympic history: athletes and results에서 압축 파일을 다운 받은 후에 압축을 해제하시오 Kaggle site에 login 후 download 가능. URL : https://www.kaggle.com/heesoo37/120-years-of-olympic-history-athletes-and-results 사용할 데이터 : athlete_events.csv, noc..
2019.03.16 -
Kaggle 올림픽 데이터를 활용한 EDA 1번째
2018-11-05 TEST2-Solution html이나 rmd가 필요하다면 댓글에 글 남겨주세요. 관련 파일 : athlete_events.csv , noc_regions.csv 필요 패키지 :tidyverse 0. Package library(tidyverse) Problem 1. 데이터 불러오기 Kaggle 120 years of Olympic history: athletes and results에서 압축 파일을 다운 받은 후에 압축을 해제하시오 Kaggle site에 login 후 download 가능. URL : https://www.kaggle.com/heesoo37/120-years-of-olympic-history-athletes-and-results 사용할 데이터 : athlete_ev..
2019.03.16 -
계절형 자기회귀 이동평균모형(SARIMA)
보통 SARIMA 형식은 으로 되어 있다. 승법 계절 모형이라고도 한다. sas에서 estimate 설정해 줄 때 형식으로 넣어준다 앞에 있는 ( ) 에는 불규칙 성분을 뒤에 있는 ( )에는 계절 불규칙을 넣어준다. sas output 중에서 autocorrelation check for white noise 부분에서는 자기 상관성을 따지는 부분인데 이 부분에 p-value가 기각을 해야 분석하는 사람들 입장에서는 좋은 것이다. 왜냐하면 상관성이 있어야 분석할 게 있다는 뜻이기 때문이다. 그리고 저번에 말한 만약에 확률적 추세가 있다면 -> adf에서 single mean을 고려해야 하고 차분을 결정한다. 만약에 결정적추세가 있다면 -> regression OR 차분을 해야 한다. 그래서 만약에 ARIM..
2018.04.09 -
ARIMA 모형의 적합
모형 적합 절차에서 ARMA 모형 적합 절차라고 하는 것은 ARMA(P, Q)에서 P, Q를 잘 선택해 가장 적절한 모형을 찾는 것이다 앞에서 배운 비정상(계절성 제외)하고 다 처리를 한 후에 ARMA 모형에 FITTING 시키고 모형 진단에서 잔차 분석 후 옳지 않으면 다시 새로운 P, Q에다가 FITTING 시키고 다시 모형진단 하는 것 반복한다. 모형의 식별에서 P,Q 를 간결의 원칙으로 인해 P 안정화 시켜줘야한다 (Log 이용) 분산이 일정해도 그 수준이 변하면 -> 적절한 차분 을 해야한다. 차분을 너무 많이 하면 앞에서 말한 듯이 분산이 너무 커져서 -> 쓸모없는 모형 예측이 나온다. 언제까지 차분을 하나면 -> 차분을 해도 1. 추세가 계절성이 존재한다. 2. SACF가 천천히 감소한다. ..
2018.03.25 -
단위근과 단위근 검정
도움이 되셨다면, 광고 한번만 눌러주세요. 블로그 관리에 큰 힘이 됩니다 ^^ 단위근 검정은 MA 모형과는 상관이 없고 AR이 포함된 모형 과 연관이 있다. 이러한 AR 모형이 있으면 AR모형은 정상성조건을 만족시켜야 하는데, 의 모든 근의 절대 값이 1보다 커야 한다. 만약 이 근이 1보다 크지 않은 근이 존재하면 -> 비정상 확률과정 이라고 한다. 만약 이 근중에서 크기가 1인 근이 있으면 그 근을 단위근(unit root) 라고 한다. 단위근의 존재는 그림으로 확인하기가 어렵다 ARIMA(1 ,1, 1,) 와 ARMA(1,1) 를 구별하기 어렵다 -> 그래서 단위근검정을 통해서 검정을 통해 -> 차분을 하여 정상성조건을 만족시켜서 - > 정상성을 만족하는 확률과정으로 바꾼다. -> 단위근 검정 통계..
2018.03.25