분석 Python(344)
-
numpy에서 dict을 이용해서 값을 바꾸는 방법
특정 배열에서 dict을 이용해서 바꿔야 하는 경우가 있다. 기존에는 바꾸기 위해서 pandas에 replace를 사용하였는데, 이것이 은근 계산 비용이 많이 든다. 그래서 이 부분을 바꾸기 위해서 찾다가 발견한 것이 있어 공유한다. Code def replace_with_dict(ar, dic): # Extract out keys and values k = np.array(list(dic.keys())) v = np.array(list(dic.values())) # Get argsort indices sidx = k.argsort() # Drop the magic bomb with searchsorted to get the corresponding # places for a in keys (using ..
2021.06.06 -
tqdm) print대신에 tqdm을 이용해서 logging 방법
간혹 먼가 로깅을 하고 싶은 경우에 print를 많이 쓴다. 하지만 print를 하다 보면, 계속 남기 때문에 메모리를 차지하거나 보기에 좋지가 않다. 그래서 이런 것을 해결할 수 있는 게 보통 tqdm이고 여기서 logging과 tqdm을 접목시켜 tqdm 방법을 이용해서 logging까지 하는 것을 공유한다. tqdm logging handler 라는 것을 구현해서 사용하면 되기 때문에 공유한다. tqdm handler import logging from tqdm import tqdm class TqdmLoggingHandler(logging.StreamHandler): """Avoid tqdm progress bar interruption by logger's output to console""" ..
2021.05.15 -
Python Pkg) array를 gif로 바꿔주는 패키지
가끔 gif로 표현해야 하는 것들이 있다. 이때 보통 사진을 저장해서 gif로 만들었는데, 해당 패키지는 array를 저장해서 array를 이용해서 gif를 만들어준다. 아주 좋은 패키지인 것 같아 공유한다. 설치 방법 pip install array2gif 예제 코드 import numpy as np from array2gif import write_gif dataset = [ np.array([ [[255, 0, 0], [255, 0, 0]], # red intensities [[0, 255, 0], [0, 255, 0]], # green intensities [[0, 0, 255], [0, 0, 255]] # blue intensities ]), np.array([ [[0, 0, 255], [0, ..
2021.05.13 -
python) histogram 알아보기
이번에는 histplot에 대해서 정리해보려고 한다. 확률 값을 density plot으로 표현하는 것보다 오히려 histogram으로 bins를 여러 개 쪼개는 것도 효과적이라는 생각을 가지게 되었기 때문이고 이것에 대해서 정리해보고자 한다. import seaborn as sns import matplotlib.pyplot as plt penguins = sns.load_dataset("penguins") sns.histplot(data=penguins, x="flipper_length_mm") bins 추가 fig, axes = plt.subplots(nrows=2, ncols=1) axes = axes.flatten() sns.histplot(data=penguins, x="flipper_leng..
2021.05.01 -
python) treemap 알아보기
시각화 도구에 대해서 여러 가지 많이 시도해보는 것이 좋을 것 같아 정리를 하나씩 해보고자 한다. 이번 글에서는 시각화 기법중에서 많은 계층 구조 데이터를 표현할 때 적합한 treemap에 대해서 소개하고자 한다. treemap이라는 시각화 기법은 Ben Shneiderman(American computer scientist and professor at the University of Maryland)에 의해서 1990년도에 처음 사용되어졌다 시각화의 공간은 양적 변수에 의해 크기와 순서가 정해지는 사각형으로 분할된다. 트리 맵의 계층에서 수준은 다른 사각형을 포함하는 사각형으로 시각화된다. 계층에서 동일한 수준에 속하는 각 사각형 집합은 데이터 테이블의 표현식 또는 컬럼을 나타난다. 계층에서 동일한 ..
2021.04.29 -
python3.7 이후) dataclass __post_init__ 간략하게 알아보기
처음 보는 거라 처음에 굉장히 당황해서 남겨 놓는다. python3.7 부터 생긴 기능인 것 같은데 dataclass decorator와 __post_init__을 사용해서 디폴트값을 설정할 수 가 있고, overidding을 계속 안해줘도 되는 것 같다. 디버깅을 해도 이부분은 확인이 안되서 난감했는데, 좋은 기능이라 생각하고 메모 from dataclasses import dataclass, field @dataclass class Book : n_d: int = 8 n_a: int = 8 n_steps: int = 3 def __post_init__(self,): self.full = self.n_d + self.n_a c = Book() print(c.n_d) print(c.full) c = Bo..
2021.04.25 -
pytorch) dataloader sampler
OverSampler / StratifiedSampler 구현물 OverSampler는 다른 코드를 참고해서 수정해봤습니다. OverSampler from torch.utils.data import Sampler class OverSampler(Sampler): """Over Sampling Provides equal representation of target classes in each batch """ def __init__(self, class_vector, batch_size): """ Arguments --------- class_vector : torch tensor a vector of class labels batch_size : integer batch_size """ self.n_sp..
2021.04.19 -
[Pytorch] gather 함수 설명 (특정 인덱스만 추출하기)
우리가 자주 쓰는 방식은 위와 같은 방식이지만, 실제로 우리가 각각에 대해서 특정 인덱스를 뽑고자 하는 경우가 있다. 최근에 동료 연구원이 이것에 대해서 질문을 하였을 때, 즉각적으로 생각이 안 나서, 시간을 소비하였고, 유용하면서도 헷갈리는 것 같아 정리해보려고 한다. torch.gather(input, dim, index, out=None, sparse_grad=False) → TensorGathers values along an axis specified by dim. 위와 같이 특정 인덱스를 뽑으려고 하면 처음 접근 방식은 loop를 생각하지만, torch에서는 gather 함수를 제공하여 쉽게 indexing을 할 수 있다. 그리고 loop 방식은 차원이 커질 수록 일반화된 방식으로 처리하기가 ..
2021.03.17 -
Pandas Profiling 패키지 Customization 하기
최신 버전 기준으로 설치해야 할 수 있다.(21/03/08 기준) !pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip !pip install pydot !pip install pygraphviz from pandas_profiling.model.typeset import ProfilingTypeSet typeset = ProfilingTypeSet() typeset.plot_graph(dpi=100) 데이터 읽기! import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/datasciencedojo/datasets/master/tita..
2021.03.08 -
google에서 만든 NAS 패키지 Model Search
언젠가는 다시 볼 것 같아서 간단하게 정리된 것 참고하여 작성 기존의 어려움들 The challenges for implementing NAS are everywhere. For starters, there are not many NAS frameworks integrated into mainstream deep learning stacks such as TensorFlow or PyTorch. Also, many NAS implementation require a lot of domain expertise to start with a series of architectures that make sense for a given problem. Finally, NAS stacks are really exp..
2021.02.24 -
[책] Deep Reinforcement Learning in Action Code Link
해당 코드에는 multi agent 관련 자료도 있어서 유용할 것 같아서 공유함. 번역된 책으로 보고 있는데, 내가 지식이 부족한지는 몰라도 굉장히 어렵게 들림. github.com/DeepReinforcementLearning/DeepReinforcementLearningInAction DeepReinforcementLearning/DeepReinforcementLearningInAction Code from the Deep Reinforcement Learning in Action book from Manning, Inc - DeepReinforcementLearning/DeepReinforcementLearningInAction github.com
2021.02.22 -
PyGAD + Pytorch + Skorch+ torch jit
보호되어 있는 글입니다.
2021.01.30