catboost(7)
-
Python) Catboost 모델링 및 Shap으로 분석해보기
In [1]: from IPython.core.display import display, HTML display(HTML("")) /tmp/ipykernel_2227596/3510566465.py:1: DeprecationWarning: Importing display from IPython.core.display is deprecated since IPython 7.14, please import from IPython display from IPython.core.display import display, HTML In [2]: import shap # train XGBoost model X,y = shap.datasets.adult() In [5]: import pandas as pd import ..
2022.11.27 -
Catboost & Shap) 예시 코드
catboost와 shap 관련 예시 코드 catboost를 사용할 때, shap.Explanation을 잘 사용해야 함. cat_features = list(train_x.select_dtypes("category")) train_dataset = cb.Pool(train_x, train_y,cat_features=cat_features) test__dataset = cb.Pool(test_x, test_y,cat_features=cat_features) model = cb.CatBoostRegressor(loss_function='RMSE',random_state=1234, custom_metric=['RMSE', 'MAE', 'R2']) grid = {'iterations': [100, 150, 2..
2022.11.16 -
CatBoost + Interpretation
https://towardsdatascience.com/deep-dive-into-catboost-functionalities-for-model-interpretation-7cdef669aeed Deep dive into Catboost functionalities for model interpretation Do we really understand what happens inside ML models we build? Let’s explore. towardsdatascience.com 일단 나중에라도 꼭 볼 것 Catboost를 알고리즘과 해석하는 라이브러리를 결합하여서 설명함. Code도 있어서 유용함! https://github.com/catboost/tutorials/blob/master/mod..
2019.06.30 -
[변수 생성] AutoEncoder로 파생변수 만들기 -2 (모델링 파트) Catboost
https://data-newbie.tistory.com/163 AutoEncoder로 파생변수 만들기 데이터 분석을 하다보면, 새로운 파생변수를 만들어야 할 때가 있다. 개인적으로 나도 그러한 부분에 관심이 있어서 여래개로 포스팅을 했는데, 한번 보시면 도움이 될 것 같다. https://data-newbie.tistory.com/.. data-newbie.tistory.com ## 모델링 파트 이전에 AutoEncoder에서 얻은 Code값을 이용해서 모델링을 해봤습니다. 모델은 tree-based model 중에서 그나마 Parameter에 크게 의존하지 않는다는 catboost로 하였습니다. 궁금하신분은 https://data-newbie.tistory.com/131?category=750846 ..
2019.06.02 -
[Python] Catboost Bayesian Optimization
최근에 Tree based 모델을 좀 보고 있는데, Python에서 categorical 변수를 One-hot을 하지 않고 하는 알고리즘은 현재, lightgbm과 catboost인 것 같다. 개인적으로 원핫을 안 좋아해서 인지, xgboost는 별로 하기가 싫다. 물론 tree-based model이라서 다차원으로 갔을 때의 고민이 좀 없겠지만, 현재 데이터중에 날짜 데이터도 있는데.. 이것을 onehot 하면 너무 Sparse하지 않겠는가............... 그래서 나는 여기선 catboost를 parameter tuning을 해보려고 한다. https://data-newbie.tistory.com/131 이전에 간략하게 논문리뷰를 해봤다. CatBoost란? unbiased boosting ..
2019.06.01 -
CatBoost란? unbiased boosting with categorical features - 2
1편 https://data-newbie.tistory.com/manage/newpost/131?type=post&returnURL=https%3A%2F%2Fdata-newbie.tistory.com%2Fmanage%2Fposts TISTORY 나를 표현하는 블로그를 만들어보세요. www.tistory.com 2편입니다. 4 Prediction shift and ordered boosting 4.1 Prediction shift 왜 Gradient Boosting에 Prediction Shift가 발생하는지 설명하는 장입니다. Prediction shift는 특별한 종류의 target leakage에 의해서 발생합니다. Our solution is called ordered boosting and res..
2019.05.21 -
CatBoost란? unbiased boosting with categorical features - 1
논문 및 Document https://arxiv.org/abs/1706.09516 https://catboost.ai/docs/concepts/python-reference_catboostclassifier_fit.html 현재 Xgboost , lightgbm , gbm 계열인 Gradient Boosting 은 weak learner를 loss function 상에서 Gradient Desecnet를 최적화 기법으로 기울기가 가장 큰 방향으로 tree들을 결합하는 방법입니다. 논문에선 catboost를 새로운 Gradient Descent 방법이라 합니다. catboost는 다른 gbm알고리즘보다 더 좋은 성능을 낼 수 있는 것은 ordering-principle 개념을 대입하여 기존의 Data 누..
2019.05.21