__pycache__ 폴더 제거하는 방법
·
분석 Python/구현 및 자료
지난 번에 폴더 자체를 복사하는 것을 하였다. https://data-newbie.tistory.com/266 Linux copy를 할 때 폴더나 파일 덮어써는 방법 폴더 복사를 하려고 하는데, 한번 하고 나니 폴더가 있다면서 복사가 되지 않았다. cp -r from_folder to_folder 이런식으로 진행을 하니 파일이 존재한다해서 안된다고 해서 방법을 찾아보니 다음과 같았다. cp -.. data-newbie.tistory.com 근데 복사를 하다보니 __pycache__ 라는 이상한 폴더도 같이 생기는 것을 확인했다. 원하는 상황은 주어진 것만 없애고 싶기 때문에 또 열심히 검색 검색 답은 요거였다. ## os.system("find {} | grep -E '(__pycache__|\.pyc$..
[ Python ] 새로 만든 함수 수정 후 restart 안하고 reload하기
·
분석 Python/구현 및 자료
함수를 잘 못 짜서 다시 load를 해야하는 경우에 함수만 바꾼다고 해서 이미 올라간 것이 바뀌지 않는다. 그래서 위에 2줄을 써주면 다시 load가 되서 수정된 것이 반영된다. %load_ext autoreload %autoreload 2 from custom_package import *
[변수 처리] 데이터에서 결측치 잘 만들어보기
·
분석 Python/Data Preprocessing
테스트를 위한 missing data를 만들려고 할 때 수치형 변수는 상관이 없으나 category 변수 같은 경우에는 one hot했을 때도 mssing을 잘 주고 싶어서 시도를 하게 됐다. 지금 해보니 더 쉽게 하는 방법이 있는 것 같은데... 일단 진행을 했으니 공유 No , RAW_Dim = RAW.shape print(No, RAW_Dim) p_miss_vec = p_miss * np.ones((No,1)) Missing = np.zeros((No,RAW_Dim)) for i in range(RAW_Dim): A = np.random.uniform(0., 1., size = [No,]) B = A > p_miss_vec[i] Missing[:,i] = 1.*B missing_RAW = deepc..
[ Python ] seaborn subplots x_ticklables rotate 하는 법
·
분석 Python/Visualization
import seaborn as sns fig , axes = plt.subplots(1,2) axx = axes.flatten() g = sns.countplot(x="dt", data=tmp , hue = "occur" , ax = axx[0] ,) g.set_xticklabels(g.get_xticklabels(), rotation=45, horizontalalignment='right', fontweight='light', fontsize='x-small' ) g = sns.countplot(x="region", data=tmp , hue = "occur" , ax = axx[1]) g.set_xticklabels(g.get_xticklabels(), rotation=45, horizontalal..
[변수 처리] Python에서 범주형 변수(Categorical) 다루기
·
분석 Python/Data Preprocessing
http://contrib.scikit-learn.org/categorical-encoding/onehot.html One Hot — Category Encoders latest documentation options are ‘error’, ‘return_nan’, ‘value’, and ‘indicator’. The default is ‘value’. Warning: if indicator is used, an extra column will be added in if the transform matrix has unknown categories. This can cause unexpected changes in dimension in some case contrib.scikit-learn.org ##..
[ Python ] custom logging level 만들기
·
분석 Python/구현 및 자료
logging level 추가하기. import logging trace = 15 class user(logging.Logger) : def trace(self , msg , *args ,**kwargs ): self.log( trace ,msg , *args ,**kwargs ) logging.setLoggerClass(user) logging.addLevelName(15 , "user") logger = logging.getLogger("test") logger.setLevel("user") ch = logging.StreamHandler() ch.setLevel(logging.DEBUG) logger.addHandler(ch) logger.debug(" debug test") logger.trace..
[ 변수 처리] 파이썬 결측치 대체 알고리즘 비교 예시
·
분석 Python/Data Preprocessing
Class로 만들어서 비교해보기 from autoimpute import imputations import impyute as impy import numpy as np from missingpy import MissForest from tqdm import tqdm_notebook n = 30 arr = np.random.uniform(high=6, size=(n, n)) arr[:,0:5] = arr[:,0:5].astype(int) true = arr.copy() arr.ravel()[np.random.choice(arr.size , 100 , replace = False )] = np.nan mask = np.isnan(arr) * 1 class Evaluate : """ X = missing d..
[ Python ] imputation algorithm package 정리
·
분석 Python/구현 및 자료
도움이 되셨다면, 광고 한번만 눌러주세요. 블로그 관리에 큰 힘이 됩니다 ^^ categorical 변수 가장 빈도수 많은 것으로 대체할 때, df_most_common_imputed = colors.apply(lambda x: x.fillna(x.value_counts().index[0])) df_most_common_imputed ## scikit-learn 0.2 버전 imputer=CategoricalImputer(strategy='most_frequent', axis=1) imputer.fit(df[["col1", "col2"]]) imputer.transform(df) (https://stackoverflow.com/questions/25239958/impute-categorical-missi..
[ Python ] SHAP (SHapley Additive exPlanations) Decision plot 설명
·
관심있는 주제/XAI
도움이 되셨다면, 광고 한번만 눌러주세요. 블로그 관리에 큰 힘이 됩니다 ^^ 기존에 내가 들었던 것은 Lime이라는 것이 있었지만, SHAP도 많이 언급되는 것 같아서 잘 정리된 자료를 리뷰해보려고 한다. SHAP FRAMEWORK는 머신러닝 모델 해석 분야에서 중요한 진보를 증명하고 있다고 한다. Scott Lundberg 그리고 Su-In Lee에 의해서 개발한 SHAP는 기존의 몇 가지 방법을 조합하여 직관적이고 이론적으로 잘 된 접근법을 만들어 어떤 모델에 대한 예측을 설명할 수 있다. SHAP 각 예측과 변수에 대한 같은 질문을 함으로써 모델의 설명을 build 한다. "변수 j가 이 모델로부터 제거될 때 얼마나 이 예측 i 에 변화를 줄까?" 그래서 이 물음에 대한 답은 SHAP values..
[Python] confluent-Kafka 연습하기
·
개발/Kafka
## Producer 1 (topic odd) from confluent_kafka import Producer import numpy as np p = Producer({'bootstrap.servers': 'localhost'}) def delivery_report(err, msg): """ Called once for each message produced to indicate delivery result. Triggered by poll() or flush(). """ if err is not None: print('Message delivery failed: {}'.format(err)) else: print('Message delivered to {} [{}]'.format(msg.topic(..
[ Python ] logging 만들어보기 (FileHandler 와 StreamHandler 위주로)
·
분석 Python/구현 및 자료
도움이 되셨다면, 광고 한번만 눌러주세요. 블로그 관리에 큰 힘이 됩니다 ^^ 파이썬에서 logging 쌓기 (FileHandler 와 StreamHandler 위주로) StreamHandler Console에 log 남기기 logging.StreamHandler() FileHandler log를 계속 쌓고 싶을 때 FileHandler('./log.txt' ,mode = "w") RotatingFileHandler 파일 용량을 정해서 log를 쌓고 제거할 때 RotatingFileHandler( filename, ## ~~.log / ~~.txt mode='a', ## a : append / w : overwrite maxBytes=0, ## 한 파일당 몇 몇가 byte까지 만들 수 있는지 backup..
[ Python ] multiprocessing / concurrent.futures
·
분석 Python/구현 및 자료
멀티프로세싱 공부 Queues FIFO(선입선출) 먼저 들어온 놈이 먼저 나간다라고 한다. 안에서 쌓아놨다고 내뱉는 머 그런 느낌! 순서가 중요할 때 안전하게 사용해야 하는 느낌이다. from multiprocessing import Process, Queue import random def rand_num(queue , x): #num = random.random() queue.put(x) if __name__ == "__main__": processes = [Process(target=rand_num, args=(queue,x,)) for x in range(10)] for p in processes: p.start() for p in processes: p.join() results = [queue..

AI 도구

AI 도구 사이드 패널

아래 AI 서비스 중 하나를 선택하여 블로그를 보면서 동시에 사용해보세요.

API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
URL과 모델을 입력하세요설정을 저장하려면 저장 버튼을 클릭하세요설정이 저장되었습니다