텐서플로우에서 범주형 데이터 다루기
·
분석 Python/Data Preprocessing
광고 한 번씩 눌러주세요! 블로그 운영에 큰 힘이 됩니다 :) 보통 딥러닝 프레임워크로 모델을 만드는 경우, 데이터를 다 준비하고 넣는 경우가 가장 쉽다. 그래서 범주형 데이터를 처리하게 되면, 보통 원핫 인코딩을 통해 sparse data를 만든다. 이게 보통 적은 데이터에서는 전혀 문제가 되지 않지만, 만약 데이터가 커지면 커질수록 모델 분석보다, 전처리하는데 많은 시간이 소요하게 된다. 뿐만 아니라 sparse data를 만들게 되면, 그만큼 메모리도 많이 잡아먹기 때문에, 범주에 따른 메모리 변동량이 커지게 된다. data Preprocessing time memory issue 그래서 필자는 이러한 부분에 대해서 해소해보고자 텐서플로우 그래프에서 처리하는 방법으로 해봤다. 아무래도 텐서플로우에서..
[ Python ] pandas 읽고 쓰기 비교 (to_csv , to_pickle , to_feather)
·
분석 Python/Pandas Tip
도움이 되셨다면, 광고 한번만 눌러주세요. 블로그 관리에 큰 힘이 됩니다. 파이썬에서 분석을 하실 때 아무래도 가장 편하게 생각할 수 있는 것은 판다스를 활용하는 방법일 것이다. 그리고 저와 같은 개발쪽 초보자들은 가장 편한 to_csv , read_csv로 데이터를 저장하고 읽을 것이다. csv로 저장하면 다른 곳에서도 쓸 수 있어 편하지만, 데이터 자체를 저장하는 것에는 별로 좋지 않아 보인다. 왜냐하면 판다스로 읽고 쓰는 것이 빅데이터에서는 많은 시간을 소요하기 때문이다. 그래서 본 글에서는 csv , pickle, feather 총 3가지를 비교해보고자 한다. 여러 가지 방식(hdf , parquet)이 있지만, 이번 글에서는 다른 방식도 있다는 것을 말하고 싶기 때문에 궁금하시면 찾아서 하시면 ..
numpy.unique, numpy.searchsorted
·
분석 Python/Numpy Tip
카테고리를 정수로 변환하기! pandas에는 cat.codes가 있다. 유니크 범위 : ( 0 , 카레고리수 -1 ) from itertools import combinations possible_categories = list(map(lambda x: x[0] + x[1], list(combinations('abcdefghijklmn', 2)))) categories = np.random.choice(possible_categories, size=10000) print(categories) ['al' 'kl' 'jk' ... 'jm' 'bm' 'hj'] unique_categories, new_categories = np.unique(categories, return_inverse=True) print..

AI 도구

AI 도구 사이드 패널

아래 AI 서비스 중 하나를 선택하여 블로그를 보면서 동시에 사용해보세요.

API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
URL과 모델을 입력하세요설정을 저장하려면 저장 버튼을 클릭하세요설정이 저장되었습니다