Probability Calibration for Imbalanced Dataset - 리뷰
·
관심있는 주제/Imbalanced data
도움이 되셨다면, 광고 한번만 눌러주세요. 블로그 관리에 큰 힘이 됩니다. 실제 데이터를 가지고 머신러닝을 하다 보면, 종종 불균형 데이터셋에 대해서 분석을 해야 할 때가 있다. 재표본 방법 특히 undersampling 방법은 보통 클래스 불균형을 극복하기 위해서 사용되는 방법 중 하나이다. 미디엄의 저자도 이것을 관련해서 썻다고 한다. (참고하면 될 것 같다!) (I also showed how those resampling methods worked on my Master dissertation in the other medium post) 그러나 이러한 방법을 시행하는 것은 train set과 test set에서 다른 class 분포 때문에 false positive(FP)가 증가하게 되는 경향이..
threshold는 어떻게 정해야 할까? 개인적인 간단한 생각
·
관심있는 주제/분석 고려 사항
우리가 어떤 모델링을 하고 나오는 값은 결국 확률 값으로 나오게 된다. 보통은 argmax 나 max f1 , 대충 0.5 같은 기준을 통해서 예측 타깃 값을 구한 다음 Confusion Matrix를 구해서 Accuracy 도 보고 Recall , Precision 같은 것을 확인해서 모델을 평가하게 된다. 그러면 이러한 기준이 되는 threshold(=cut off)는 어떻게 정해야 할까? 최근 겪고 있는 문제는 데이터가 imbalance 할 때 모델의 확률 값을 봤을 때 0의 경우에는 확실히 0이지만 1인 경우에는 0.01 ~ 0.001 이러한 부근에 있다. 보통 이러한 cut off 문제를 완화하기 위해 추천하는 방법은 undersampling, oversampling, sensitive cost..

AI 도구

AI 도구 사이드 패널

아래 AI 서비스 중 하나를 선택하여 블로그를 보면서 동시에 사용해보세요.

API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
URL과 모델을 입력하세요설정을 저장하려면 저장 버튼을 클릭하세요설정이 저장되었습니다