imputation(6)
-
[ Python ] Cross Validation 병렬로 돌리고 BoxPlot 시각화
(상황) 여러 가지 테이블들이 있고 각각을 GBM으로 모델링을 하고 CrossValidation을 하고 나서 결과값을 box plot으로 시각화하고 싶다. Result라는 dictionary에 총 8개의 방법론을 사용해서 Imputation 된 값들이 들어가 있다. 이것들을 모델은 Gradient Boosting Machine 이용하고 CrossValidation을 진행하고 Boxplot을 그릴 것다. 시간이 오래 걸릴 것 같아서 joblib을 사용하여 Parallel 하게 돌리도록 했다. 모델링 ㄱㄱ! from joblib import Parallel, delayed from sklearn.model_selection import KFold from sklearn.ensemble import Gradi..
2019.11.07 -
MISGAN: LEARNING FROM INCOMPLETE DATA WITH GENERATIVE ADVERSARIAL NETWORKS 리뷰
Paper https://arxiv.org/abs/1902.09599 Code https://github.com/steveli/misgan/blob/master/misgan.ipynb 아주 빠르게 보고 싶어서, 이론적인 부분은 살펴보지 않고 핵심 아이디어가 먼지만 확인 Abstarct GAN은 복잡한 분포를 모델링하는 효율 적안 방법론이고 리고 다양한 어려운 문제들에 대해서도 효과적인 결과를 얻게 한다. 그러나 전형적인 GAN는 학습 동안에 완적 관측된 데이터를 요구했다. 이 논문에서는 고차원의 불정 말한 데이터를 학습하는 GAN 기반 방법론을 제안한다. 그 제안된 방법은 결측 데이터 분포를 모델링하는 MASK Generator와 함께 정말한 DATA Generator를 배우는 것이다. 우리는 우리의 프..
2019.10.20 -
MISSFOREST 알고리즘 설명
missing data는 통계적인 방법의 실재적 적용에 꽤 흔하다. 그리고 imputation은 완전하지 않은 데이터셋의 분석에서 쓰는 일반적인 통계적 기법이다. 2012년에 Stekhoven and Bühlmann 은 missing data를 처리하기 위해 iterative method라고 하는 missforest를 제안했다. 이 글에서는 missforest에 대해서 간단한 설명을 써보려고 한다. 흔히 MISSING에서는 3가지 메커니즘이 있다고 한다. MCAR과 MAR 같은 경우에는 수많은 방법으로 대체가 가능하다 (mean / mode imputation, conditional mean imputation (regression imputation), stochastic regression imput..
2019.10.01 -
[ 변수 처리] 파이썬 결측치 대체 알고리즘 비교 예시
Class로 만들어서 비교해보기 from autoimpute import imputations import impyute as impy import numpy as np from missingpy import MissForest from tqdm import tqdm_notebook n = 30 arr = np.random.uniform(high=6, size=(n, n)) arr[:,0:5] = arr[:,0:5].astype(int) true = arr.copy() arr.ravel()[np.random.choice(arr.size , 100 , replace = False )] = np.nan mask = np.isnan(arr) * 1 class Evaluate : """ X = missing d..
2019.09.10 -
[ Python ] imputation algorithm package 정리
도움이 되셨다면, 광고 한번만 눌러주세요. 블로그 관리에 큰 힘이 됩니다 ^^ categorical 변수 가장 빈도수 많은 것으로 대체할 때, df_most_common_imputed = colors.apply(lambda x: x.fillna(x.value_counts().index[0])) df_most_common_imputed ## scikit-learn 0.2 버전 imputer=CategoricalImputer(strategy='most_frequent', axis=1) imputer.fit(df[["col1", "col2"]]) imputer.transform(df) (https://stackoverflow.com/questions/25239958/impute-categorical-missi..
2019.09.10 -
Why using a mean for missing data is a bad idea. Alternative imputation algorithms.
https://towardsdatascience.com/why-using-a-mean-for-missing-data-is-a-bad-idea-alternative-imputation-algorithms-837c731c1008 Why using a mean for missing data is a bad idea. Alternative imputation algorithms. We all know the pain when the dataset we want to use for Machine Learning contains missing data. The quick and easy workaround is to… towardsdatascience.com 가장 인상 깊은 부분은 이것 Mean reduces a ..
2019.06.30