[ 변수 처리] 결측치 대체 알고리즘 MissForest Imputation 연습
·
분석 Python/Data Preprocessing
MissForest로 결측치 대체를 하려고하는 것이 목적이다. 그래서 일단 임의의 데이터를 만들고 진행한다. from missingpy import MissForest import numpy as np import pandas as pd from sklearn.preprocessing import LabelEncoder tr1 = list("ABCD") tr2 = ['pooh', 'rabbit', 'piglet', 'Christopher'] va1 = list("ABCDE") va2 = ['pooh', 'rabbit', 'piglet', 'Christopher', "bird", "coco"] tr1_ = np.random.choice(tr1, 1000 , p=[0.5, 0.1, 0.1, 0.3]) va1..
MISSFOREST 알고리즘 설명
·
ML(머신러닝)/BASIC
missing data는 통계적인 방법의 실재적 적용에 꽤 흔하다. 그리고 imputation은 완전하지 않은 데이터셋의 분석에서 쓰는 일반적인 통계적 기법이다. 2012년에 Stekhoven and Bühlmann 은 missing data를 처리하기 위해 iterative method라고 하는 missforest를 제안했다. 이 글에서는 missforest에 대해서 간단한 설명을 써보려고 한다. 흔히 MISSING에서는 3가지 메커니즘이 있다고 한다. MCAR과 MAR 같은 경우에는 수많은 방법으로 대체가 가능하다 (mean / mode imputation, conditional mean imputation (regression imputation), stochastic regression imput..

AI 도구

AI 도구 사이드 패널

아래 AI 서비스 중 하나를 선택하여 블로그를 보면서 동시에 사용해보세요.

API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
URL과 모델을 입력하세요설정을 저장하려면 저장 버튼을 클릭하세요설정이 저장되었습니다