Data Preprocessing 잡생각
데이터 분석시 전처리에 대해서 어떻게 하는지 좋을지가 헷갈린다. 흔히 하는 말로 Garbage in Garbage out 라고 해서 참 중요하다고 한다. 하지만 딥러닝에서는 대충 처리하면 안에서 data representation까지 해준다라는 느낌이 강한 것 같다. 위의 그림처럼 대충 크게 이상하지 않은 것을 넣으면, 알아서 학습하면서 좋은 feature를 만들어주는 것인지... 하지만 대충 넣으면 train와 test 간에 overfitting 문제도 발생시키는 것 같다. 일단 주로 딥러닝 기반으로 필자는 자주 하기 때문에 딥러닝 기반에서 어떻게 전처리를 하면 좋을지를 중점적으로 잡생각들을 써보려고 한다. tree 기반 알고리즘 분기점을 나누는 방식이기 때문에 정규화가 딱히 필요없음. CART, Ra..
2020.04.19