sckit-learn(5)
-
Python) Permutation Importance 다양하게 표현하는 방법
해당 파일에 함수를 정리하였습니다. In [26]: from IPython.core.display import display, HTML display(HTML("")) /tmp/ipykernel_3209568/3510566465.py:1: DeprecationWarning: Importing display from IPython.core.display is deprecated since IPython 7.14, please import from IPython display from IPython.core.display import display, HTML 참고¶ 해당 코드를 기반으로 정리한 코드입니다. https://github.com/cerlymarco/MEDIUM_NoteBook/blob/master..
2022.01.31 -
Scikit-learn Custom Pipeline Save & Reload (저장 및 재사용)
필자는 scikit-learn으로 preprocessing custom class들을 만든 후 Pipeline을 활용해 한꺼번에 묶어서 사용하고자 했다. Pipeline으로 구축하게 되면 개인적으로 생각하는 점은 자신의 새로운 class와 더불어서 scikit-learn에 많은 패키지들과 호환돼서 확장성을 가질 수 있을 것이라고 생각했다. 기존에 단순히 Class로 된 것에 대한 아쉬움을 느껴서, 확장하기에는 custom 해야하는 것이 많다. 그래서 Scikit-Learn Pipeline과 호환이 된다면, 더 많은 것을 쉽게 할 수 있을 거라 생각해서, 진행해봤다. 기존에 Pipeline으로만 하는 것은 자주 해서 어려운 부분이 아니였지만, 저장해서 사용하려니 이슈가 생겼고, 해결한 방법에 대해서 관련된..
2020.02.28 -
[ Python ] sklearn_pandas 로 정형데이터 전처리하기(Preprocessing)
광고 한 번만 눌러주세요 블로그 운영을 하는 데 있어서 큰 힘이 됩니다. : ) 파이썬으로 분석을 하다 보면 sklearn과 pandas는 정형 데이터에서 자주 사용하는 패키지일 것이다. 정형 데이터에서 보통 범주형 데이터와 수치형 변수를 나눠서 전처리를 할 때 2개를 같이 쓰게 된다. 하지만 각각의 변수별로 처리를 하게 된다면 보통 다음과 같이 진행할 것이다. from sklearn.compose import ColumnTransformer from sklearn.pipeline import Pipeline from sklearn.impute import SimpleImputer from sklearn.preprocessing import StandardScaler, OneHotEncoder imp =..
2020.01.19 -
[ Python ] scikit-learn RandomTreesEmbedding
이것도 우연히 다른거 찾다가... 일단 임베딩 관련해서 찾다보니 다음과 같이 나왔다. 현재 아래있는 Manifold Learning은 numerical multidimensional matrix에서 하는 방법론들인 것 같다.(아닐수도 있다...) 일단 저건 그랬고 이번에는 그것보다는 다른 걸 찾아사 말하고자 한다. 이번에 찾은 것은 high dimensional sparse representation으로 표현을 하는데, 음 이것을 소개하는 이유는 다음과 같다. ensemble tree 모델을 이용하다보니, one hot encoding 모아 놓은 것에 대해서 sparse matrix를 만들어준다. 즉 이것을 사용하면 결측치가 들어있는 데이터에 대해서 유익한 정보로 sparse한 dimensional ma..
2019.12.21 -
[ Python ] scikit-learn feature selection Tool
도움이 되셨다면, 광고 한번만 눌러주세요. 블로그 관리에 큰 힘이 됩니다. https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectFromModel.html sklearn.feature_selection.SelectFromModel — scikit-learn 0.22 documentation scikit-learn.org 우연히 다른 걸 찾아보다가 알게 되었다. 원래는 threshold를 자동으로 찾아주는 것이 있나 싶어서 찾다가 더 오히려 알고 싶었던 것이 나왔다. 보통 만약에 scikit-learn 패키지 자체를 이용해서 하려면 transform을 사용해서 축약된 feature를 가져오면 되고, 만약 다른 것에..
2019.12.21