파이썬(8)
-
KS(Kolmogorov-Smirnov Statistics) 통계량 알아보기
Kolmogorov-Smirnov(KS) 통계는 예측 모델을 검증하는 데 사용되는 가장 중요한 메트릭 중 하나입니다. 특히 Banking, Financial services and Insurance (BFSI) 도메인에서 자주 사용됩니다. 은행에서 프로젝트를 수행하는 위험 또는 마케팅 분석 팀의 일원이라면 이 지표에 대해 들어봤을 것입니다. 정의 검색을 하면 가장 많이 나오는 정의는 다음과 같습니다. K-S 통계량은 우량 집단과 불량집단의 누적 분포의 차이를 나타내는 지표로 신용평가모형의 변별력 평가 시 주요 판별 통계량으로 활용됩니다. 먼가 금융 용어가 많이 섞여 이해하기 어려울 수 있지만, 간단하게 말하면, 2개의 집단이 동일한 분포를 이루고 있는 지를 검증하는 검증 지표라고 할 수 있습니다. 위에 ..
2022.07.30 -
Python) Heap 정리 및 heap sort 구현해보기
우연히 찾은 컴퓨터 알고리즘 강의인데, 출퇴근길에 들어보고 있다. 자료 구조 중의 하나인 Heap에 대해 알아보고 구현하는 것까지 해보려고 한다. 일단 Heap을 사용하는 이유부터 알아보자 Heap은 Prioirty Queue와 같이 우선순위가 존재하는 자료 구조이다. Heap(힙)이란? 완전 이진 트리의 일종으로 우선순위 큐를 위하여 만들어진 자료구조이다. 여러 개의 값들 중에서 최댓값이나 최솟값을 빠르게 찾아내도록 만들어진 자료구조 완전 이진 트리(complete binary tree)에 가까운 형태 이진트리(Binary tree)는 각 노드의 자식수가 2 이하인 경우 완전 이진 트리는 Root 노드부터 Leaf 노드까지 빠짐없이 채워져 있는 트리 종류 최대힙 (max-heap property) 부모..
2022.04.08 -
notion-py를 사용하여 캘린더 만들기
다들 테이블 만드는 것은 있는데, 캘린더 만드는 것은 없는 것 같아서 글을 적어보고자 한다. 목차 notion-py 설치 https://github.com/jamalex/notion-py pip3 install notion notion token 값 얻기 아래 글을 참고해주시면 된다. 간단하게 크롬에서 notion 페이지 들어가서 F12 -> Application -> Cookies -> notion.com -> token_v2에 있는 값을 가져오면 된다. https://minimin2.tistory.com/99 소스 설명 token_v2 = ### url = ### (적용하고자 하는 노션 위치) client = NotionClient(token_v2 = token_v2) page = client.get..
2021.08.08 -
동행 복권 당첨 데이터 파이썬으로 분석해보기 (~962)
동행 복권 당첨 데이터를 가지고 추후에 통계치나 시각화를 통해서 분석해보고자 한다. dhlottery.co.kr/common.do?method=main 동행복권 당첨번호 1 18 28 31 34 43 보너스번호 40 1등 총 당첨금 233억원(12명 / 19억) 이전 회차 당첨정보 보기 다음 회차 당첨정보 보기 dhlottery.co.kr 데이터 불러오기 및 포맷 변경하기 (wide -> long) data = pd.read_csv("./dhlottery_data.csv") win_nums = np.vstack(data["win_nums"].\ apply(lambda x : np.array(ast.literal_eval(x))).values) win_nums_pd = pd.DataFrame(win_num..
2021.05.09 -
파이썬 상위,하위,특정 디렉토리에 있는 패키지 임포트하기(import)
광고 한 번씩 눌러주세요! 블로그 운영에 큰 힘이 됩니다 :) 하위 디렉터리에서 import 하기 특정 폴더 안에 파일을 넣어놓았다고 하자. 이때 폴더 이름에 얽매이지 않고 안에 있는 패키지를 쓰고 싶다고 해보자. 예를 들어 폴더 이름이 test_folder 이든 test_folder2이든 안에 있는 check.py , check2.py를 쓰고 싶다고 하자. 이럴 때는 일단 __init__. py를 추가하면 된다. 그냥 저 파일만 생성을 해주면 된다. 이제 상위 디렉토리에 있는 주피터 노트북으로 하위 디렉터리 test_folder2에 있는 check.py를 사용해보자 test_folder2에 있는 check에서 method를 import 할 때 check2.py에 있는 것도 같이 임포트 시킨 것을 확인하..
2020.04.25 -
[ Python ] 정형데이터 용량 줄이는 함수 소개 (연속형, 이산형, 문자형)
광고 한 번씩 눌러주세요! 블로그 운영에 큰 힘이 됩니다 :) 파이썬에서 데이터를 그냥 사용하다 보면, 데이가 엄청 커서 불편할 때가 있다. 그래서 필자는 연속형,이산형,문자형에 따라 용량을 줄여주는 함수를 소개하겠다. ## 데이터 크기 확인 함수 def mem_usage(pandas_obj): if isinstance(pandas_obj,pd.DataFrame): usage_b = pandas_obj.memory_usage(deep=True).sum() else: # we assume if not a df it's a series usage_b = pandas_obj.memory_usage(deep=True) usage_mb = usage_b / 1024 ** 2 # convert bytes to me..
2020.04.12 -
subplotting을 위한 plot 함수 만들어서 코드 간단하게 하기
광고 한번만 눌러주세요 ㅎㅎ 블로그 운영에 큰 힘이 됩니다. 여러가지 그림을 한꺼번에 표현하고 싶을 때, 각각의 그림에 대해서 그림을 그리고, 이름을 부여고하고, y축 x축 변경해줘야 할 것이 많다. 하지만 이런 것을 반복하다보면, 코드가 너무 장황해지고 길어지는 것을 경험하였다. 그래서 이런 것을 보다 그림을 표현할 때는 간단하게 하고 싶기 때문에, 만들어봤다. 유용하다 생각하시면, 더 업그레이드 하셔서 블로그나 깃헙 같은 곳에 공유해주세요 :) import numpy as np , pickle import matplotlib.pyplot as plt with open("./../02/resut.pkl", "rb") as rb : result = pickle.load(rb) def subplotting..
2020.03.29 -
파이썬 subplots 좀 더 잘 사용해보기
광고 한번만 눌러주세요 ㅎㅎ 블로그 운영에 큰 힘이 됩니다. 파이썬에서 한 Figure에서 여러 개로 쪼개서 다양한 그림을 넣고 싶은 경우가 많다. 보통 그래서 필자는 주로 격자 방식으로 한 그림에는 한 주제만 나오게 한다. 그래서 필자가 좋아하는 방법은 평평하게 해 놓고 격자마다 하나씩 나오게 하는 것이다. import matplotlib.pyplot as plt from matplotlib.gridspec import GridSpec import numpy as np import pickle with open("./../02/resut.pkl", "rb") as rb : result = pickle.load(rb) 하지만 위에 그림에서 왼쪽을 보게 되면, 스케일 자체가 차이가 나서, 실제로 제대로 된..
2020.03.29