[sklearn] Ray를 사용하여 Regression Variable Selection 병렬로 하기
·
분석 Python/Ray
ray-project 중에서 tune-sklearn 패키지가 있는 것을 확인했다. 이 패키지는 scikit-learn 모델들을 ray를 사용해서 병렬 처리를 하게 해 준다. ray를 잘 쓰고 싶은 사람이기 때문에 테스트를 해봤다. 이번 글에서는 scikit-learn에서 제공하는 변수 선택법을 회귀 모델에 적용해서, 가장 최적의 변수를 찾기 위한 작업을 GridSearchCV로 진행해 본 것을 공유한다. 패키지 설치 방법 pip install tune-sklearn ray[tune] from sklearn.feature_selection import ( VarianceThreshold , SelectFromModel, SelectKBest,GenericUnivariateSelect,SelectPercen..
[변수 선택] Python에서 변수 전처리 및 변형 해주는 Xverse 패키지 소개
·
분석 Python/Data Preprocessing
광고 한번만 눌러주세요 ㅎㅎ 블로그 운영에 큰 힘이 됩니다. Xverse는 X Universe를 줄인 말로, 특징 변환과 특징 선택을 통해 데이터 과학자를 지원하기 위한 기계 학습을 위한 Python 패키지입니다. 일단 필요성에 대해서 말하고자 한다고 합니다. Background 대부분의 데이터 분석가는 80%는 분석 전처리에 쓰고 있다고 한다. Earlier works for this package https://medium.com/@sundarstyles89/weight-of-evidence-and-information-value-using-python-6f05072e83eb Weight of evidence and Information Value using Python Weight of eviden..
[변수 선택 및 생성]중요 변수 선택 및 파생 변수 만들기
·
분석 Python/Data Preprocessing
광고 한번만 눌러주세요 블로그를 운영하는데 있어서 동기부여가 됩니다.:) 모델링하다 보면 변수가 너무 많아서 무엇을 뽑을지 모를 때가 있다. 이럴 때 간단히 할 수 있는 방법은 칼럼 별 분포를 타깃별로 보고 분포가 차이가 얼마나 나는 지 확인 후 선택하는 방법이 있다. 여기서 한 것은 분포간 거리를 재는 divergence 중에서 wasserstein distance를 사용해서 해봤다. 특정 threshold를 부여하여 그것보다 차이가 날 경우 뽑는 방식으로 선택했다. 그리고 분포간 스케일이 다를 수 있기 때문에 min-max 함수를 통해 (-1,1)로 통일하였다. 실제 여기서 좀 문제가 되는 점이라고 할 수 있는 점은 스케일링을 어떻게 하는지에 따라서 distance가 다르게 나왔다. import nu..

AI 도구

AI 도구 사이드 패널

아래 AI 서비스 중 하나를 선택하여 블로그를 보면서 동시에 사용해보세요.

API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
URL과 모델을 입력하세요설정을 저장하려면 저장 버튼을 클릭하세요설정이 저장되었습니다