[변수 선택 및 생성]중요 변수 선택 및 파생 변수 만들기-2
·
분석 Python/Data Preprocessing
이전 글 https://data-newbie.tistory.com/382 저번 글에서 피드백을 받은 PolynomialFeatures와 추가적인 2가지 변수가 아닌 중요 변수 조합을 시각화하는 그림을 만들어봤다. 대신 polynomial은 곱하기 연산으로만 이루어져서, 나누기라던지, 빼기는 표현이 되지 않지만, 쉽게 쓸 수 있다는 장점이 있어서 좋은 것 같다. import matplotlib.pyplot as plt import numpy as np import pandasa as pd import saeborn as sns from scipy.stats import wasserstein_distance as wd , ks_2samp as ks , energy_distance as ed 일단 중요 변수는..
[변수 선택 및 생성]중요 변수 선택 및 파생 변수 만들기
·
분석 Python/Data Preprocessing
광고 한번만 눌러주세요 블로그를 운영하는데 있어서 동기부여가 됩니다.:) 모델링하다 보면 변수가 너무 많아서 무엇을 뽑을지 모를 때가 있다. 이럴 때 간단히 할 수 있는 방법은 칼럼 별 분포를 타깃별로 보고 분포가 차이가 얼마나 나는 지 확인 후 선택하는 방법이 있다. 여기서 한 것은 분포간 거리를 재는 divergence 중에서 wasserstein distance를 사용해서 해봤다. 특정 threshold를 부여하여 그것보다 차이가 날 경우 뽑는 방식으로 선택했다. 그리고 분포간 스케일이 다를 수 있기 때문에 min-max 함수를 통해 (-1,1)로 통일하였다. 실제 여기서 좀 문제가 되는 점이라고 할 수 있는 점은 스케일링을 어떻게 하는지에 따라서 distance가 다르게 나왔다. import nu..

AI 도구

AI 도구 사이드 패널

아래 AI 서비스 중 하나를 선택하여 블로그를 보면서 동시에 사용해보세요.

API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
URL과 모델을 입력하세요설정을 저장하려면 저장 버튼을 클릭하세요설정이 저장되었습니다