[변수 선택 및 생성]중요 변수 선택 및 파생 변수 만들기
광고 한번만 눌러주세요 블로그를 운영하는데 있어서 동기부여가 됩니다.:) 모델링하다 보면 변수가 너무 많아서 무엇을 뽑을지 모를 때가 있다. 이럴 때 간단히 할 수 있는 방법은 칼럼 별 분포를 타깃별로 보고 분포가 차이가 얼마나 나는 지 확인 후 선택하는 방법이 있다. 여기서 한 것은 분포간 거리를 재는 divergence 중에서 wasserstein distance를 사용해서 해봤다. 특정 threshold를 부여하여 그것보다 차이가 날 경우 뽑는 방식으로 선택했다. 그리고 분포간 스케일이 다를 수 있기 때문에 min-max 함수를 통해 (-1,1)로 통일하였다. 실제 여기서 좀 문제가 되는 점이라고 할 수 있는 점은 스케일링을 어떻게 하는지에 따라서 distance가 다르게 나왔다. import nu..
2020.01.08