'Python' 태그의 글 목록 (15 Page)

지난 번에 폴더 자체를 복사하는 것을 하였다. https://data-newbie.tistory.com/266 Linux copy를 할 때 폴더나 파일 덮어써는 방법 폴더 복사를 하려고 하는데, 한번 하고 나니 폴더가 있다면서 복사가 되지 않았다. cp -r from_folder to_folder 이런식으로 진행을 하니 파일이 존재한다해서 안된다고 해서 방법을 찾아보니 다음과 같았다. cp -.. data-newbie.tistory.com 근데 복사를 하다보니 __pycache__ 라는 이상한 폴더도 같이 생기는 것을 확인했다. 원하는 상황은 주어진 것만 없애고 싶기 때문에 또 열심히 검색 검색 답은 요거였다. ## os.system("find {} | grep -E '(__pycache__|\.pyc$..

함수를 잘 못 짜서 다시 load를 해야하는 경우에 함수만 바꾼다고 해서 이미 올라간 것이 바뀌지 않는다. 그래서 위에 2줄을 써주면 다시 load가 되서 수정된 것이 반영된다. %load_ext autoreload %autoreload 2 from custom_package import *

테스트를 위한 missing data를 만들려고 할 때 수치형 변수는 상관이 없으나 category 변수 같은 경우에는 one hot했을 때도 mssing을 잘 주고 싶어서 시도를 하게 됐다. 지금 해보니 더 쉽게 하는 방법이 있는 것 같은데... 일단 진행을 했으니 공유 No , RAW_Dim = RAW.shape print(No, RAW_Dim) p_miss_vec = p_miss * np.ones((No,1)) Missing = np.zeros((No,RAW_Dim)) for i in range(RAW_Dim): A = np.random.uniform(0., 1., size = [No,]) B = A > p_miss_vec[i] Missing[:,i] = 1.*B missing_RAW = deepc..

import seaborn as sns fig , axes = plt.subplots(1,2) axx = axes.flatten() g = sns.countplot(x="dt", data=tmp , hue = "occur" , ax = axx[0] ,) g.set_xticklabels(g.get_xticklabels(), rotation=45, horizontalalignment='right', fontweight='light', fontsize='x-small' ) g = sns.countplot(x="region", data=tmp , hue = "occur" , ax = axx[1]) g.set_xticklabels(g.get_xticklabels(), rotation=45, horizontalal..

http://contrib.scikit-learn.org/categorical-encoding/onehot.html One Hot — Category Encoders latest documentation options are ‘error’, ‘return_nan’, ‘value’, and ‘indicator’. The default is ‘value’. Warning: if indicator is used, an extra column will be added in if the transform matrix has unknown categories. This can cause unexpected changes in dimension in some case contrib.scikit-learn.org ##..

logging level 추가하기. import logging trace = 15 class user(logging.Logger) : def trace(self , msg , *args ,**kwargs ): self.log( trace ,msg , *args ,**kwargs ) logging.setLoggerClass(user) logging.addLevelName(15 , "user") logger = logging.getLogger("test") logger.setLevel("user") ch = logging.StreamHandler() ch.setLevel(logging.DEBUG) logger.addHandler(ch) logger.debug(" debug test") logger.trace..

Class로 만들어서 비교해보기 from autoimpute import imputations import impyute as impy import numpy as np from missingpy import MissForest from tqdm import tqdm_notebook n = 30 arr = np.random.uniform(high=6, size=(n, n)) arr[:,0:5] = arr[:,0:5].astype(int) true = arr.copy() arr.ravel()[np.random.choice(arr.size , 100 , replace = False )] = np.nan mask = np.isnan(arr) * 1 class Evaluate : """ X = missing d..

도움이 되셨다면, 광고 한번만 눌러주세요. 블로그 관리에 큰 힘이 됩니다 ^^ categorical 변수 가장 빈도수 많은 것으로 대체할 때, df_most_common_imputed = colors.apply(lambda x: x.fillna(x.value_counts().index[0])) df_most_common_imputed ## scikit-learn 0.2 버전 imputer=CategoricalImputer(strategy='most_frequent', axis=1) imputer.fit(df[["col1", "col2"]]) imputer.transform(df) (https://stackoverflow.com/questions/25239958/impute-categorical-missi..

도움이 되셨다면, 광고 한번만 눌러주세요. 블로그 관리에 큰 힘이 됩니다 ^^ 기존에 내가 들었던 것은 Lime이라는 것이 있었지만, SHAP도 많이 언급되는 것 같아서 잘 정리된 자료를 리뷰해보려고 한다. SHAP FRAMEWORK는 머신러닝 모델 해석 분야에서 중요한 진보를 증명하고 있다고 한다. Scott Lundberg 그리고 Su-In Lee에 의해서 개발한 SHAP는 기존의 몇 가지 방법을 조합하여 직관적이고 이론적으로 잘 된 접근법을 만들어 어떤 모델에 대한 예측을 설명할 수 있다. SHAP 각 예측과 변수에 대한 같은 질문을 함으로써 모델의 설명을 build 한다. "변수 j가 이 모델로부터 제거될 때 얼마나 이 예측 i 에 변화를 줄까?" 그래서 이 물음에 대한 답은 SHAP values..

## Producer 1 (topic odd) from confluent_kafka import Producer import numpy as np p = Producer({'bootstrap.servers': 'localhost'}) def delivery_report(err, msg): """ Called once for each message produced to indicate delivery result. Triggered by poll() or flush(). """ if err is not None: print('Message delivery failed: {}'.format(err)) else: print('Message delivered to {} [{}]'.format(msg.topic(..

도움이 되셨다면, 광고 한번만 눌러주세요. 블로그 관리에 큰 힘이 됩니다 ^^ 파이썬에서 logging 쌓기 (FileHandler 와 StreamHandler 위주로) StreamHandler Console에 log 남기기 logging.StreamHandler() FileHandler log를 계속 쌓고 싶을 때 FileHandler('./log.txt' ,mode = "w") RotatingFileHandler 파일 용량을 정해서 log를 쌓고 제거할 때 RotatingFileHandler( filename, ## ~~.log / ~~.txt mode='a', ## a : append / w : overwrite maxBytes=0, ## 한 파일당 몇 몇가 byte까지 만들 수 있는지 backup..

멀티프로세싱 공부 Queues FIFO(선입선출) 먼저 들어온 놈이 먼저 나간다라고 한다. 안에서 쌓아놨다고 내뱉는 머 그런 느낌! 순서가 중요할 때 안전하게 사용해야 하는 느낌이다. from multiprocessing import Process, Queue import random def rand_num(queue , x): #num = random.random() queue.put(x) if __name__ == "__main__": processes = [Process(target=rand_num, args=(queue,x,)) for x in range(10)] for p in processes: p.start() for p in processes: p.join() results = [queue..

AI 도구

AI 도구 사이드 패널

티스토리툴바