텐서플로우에서 범주형 데이터 다루기
광고 한 번씩 눌러주세요! 블로그 운영에 큰 힘이 됩니다 :) 보통 딥러닝 프레임워크로 모델을 만드는 경우, 데이터를 다 준비하고 넣는 경우가 가장 쉽다. 그래서 범주형 데이터를 처리하게 되면, 보통 원핫 인코딩을 통해 sparse data를 만든다. 이게 보통 적은 데이터에서는 전혀 문제가 되지 않지만, 만약 데이터가 커지면 커질수록 모델 분석보다, 전처리하는데 많은 시간이 소요하게 된다. 뿐만 아니라 sparse data를 만들게 되면, 그만큼 메모리도 많이 잡아먹기 때문에, 범주에 따른 메모리 변동량이 커지게 된다. data Preprocessing time memory issue 그래서 필자는 이러한 부분에 대해서 해소해보고자 텐서플로우 그래프에서 처리하는 방법으로 해봤다. 아무래도 텐서플로우에서..
2020.04.05