Python) Data Drift 탐지 KS로 구현해보기
·
분석 Python/구현 및 자료
다른 참고자료들을 보면서 이런 식으로 구현해볼 수 있지 않을까 해서 구현해봅니다. 한 가지 남은 이슈로는 이 코드 구현에서는 데이터의 히스토그램 정보를 저장하다 보니, 누적해서 계속 비교하는 것은 어떻게 해야 할지가 고민입니다. 이 부분 혹시 아이디어나 의견 있으면 댓글 부탁드려요! DATA DRIFT란? 다양한 Drift 문제가 있는데 여기서는 Data Drift를 다루려고 합니다. Data Drift란 간단히 말해서 시간이 변하면서, 데이터의 분포가 변하는 것을 의미합니다. 그래서 모델을 훈련하는 데 사용되는 데이터 세트와 실제 운영에서 받는 데이터를 모방하지 않을 때 발생합니다. 이것은 모델이 이상하게 작동하고 성능이 저하되기 시작하는 때입니다. 그래서 이러한 문제를 성능과 직결되는 문제를 가지고 ..
KS(Kolmogorov-Smirnov Statistics) 통계량 알아보기
·
관심있는 주제/분석 고려 사항
Kolmogorov-Smirnov(KS) 통계는 예측 모델을 검증하는 데 사용되는 가장 중요한 메트릭 중 하나입니다. 특히 Banking, Financial services and Insurance (BFSI) 도메인에서 자주 사용됩니다. 은행에서 프로젝트를 수행하는 위험 또는 마케팅 분석 팀의 일원이라면 이 지표에 대해 들어봤을 것입니다. 정의 검색을 하면 가장 많이 나오는 정의는 다음과 같습니다. K-S 통계량은 우량 집단과 불량집단의 누적 분포의 차이를 나타내는 지표로 신용평가모형의 변별력 평가 시 주요 판별 통계량으로 활용됩니다. 먼가 금융 용어가 많이 섞여 이해하기 어려울 수 있지만, 간단하게 말하면, 2개의 집단이 동일한 분포를 이루고 있는 지를 검증하는 검증 지표라고 할 수 있습니다. 위에 ..

AI 도구

AI 도구 사이드 패널

아래 AI 서비스 중 하나를 선택하여 블로그를 보면서 동시에 사용해보세요.

API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
URL과 모델을 입력하세요설정을 저장하려면 저장 버튼을 클릭하세요설정이 저장되었습니다