관심있는 주제/분석 고려 사항(18)
-
어떻게 언제 왜 Normalize Standardize Rescale 해주는지??!
도움이 되셨다면, 광고 한번만 눌러주세요. 블로그 관리에 큰 힘이 됩니다 ^^ 보통 데이터를 분석 시, https://data-newbie.tistory.com/121 Neural Network를 학습하기 전에 Normalize를 왜 해줘야 할까? medium을 보다가 평소에 관심을 가진 주제에 대한 글이 있어서 보기로 하였습니다. 단순 번역일 것 같으니, 원본은 아래에 링크를 남겼습니다! 실제로 기존에 뉴럴 넷을 학습시킬 때는 다 데이터를 normalize를 해.. data-newbie.tistory.com 일단은 Neural Network를 학습을 시 킬 때, 좀 더 학습을 빠르고 안정되게 하기위해서 해주는데요! 이번에는 좀 더 넓은 범위에서 왜 Normalize , Standardize , Resc..
2019.05.18 -
Overfit? or dissimilar train and test? (medium 번역 및 생각)
https://towardsdatascience.com/how-dis-similar-are-my-train-and-test-data-56af3923de9b How (dis)similar are my train and test data? Understanding a scenario where your machine learning model can fail towardsdatascience.com 해당 내용이 굉장히 흥미로워서 공유를 하면서 나도 연습을 해보려고 작성했다. 흥미로운 이유는 만약 train으로 함수를 추정하고 test로 평가했을 때 성능이 안좋은 이유는 우리는 보통 overfitting이 발생했다고 한다. 하지만 이 글에서는 그 문제일수도 있지만, 새로운 문제를 제기한다. 실제 train 분..
2019.05.08 -
Feature engineering ( 글 리뷰 및 내 생각 )
좋은 글인 것 같아서 구글 번역 및 저의 생각을 적을 수 있으면 적을까 합니다. (영문 글을 보시는 게 더 나을지도 몰라요ㅎㅎ) Feature Engineering이란 머신러닝 문제에 대해서 타겟에 대해서 최고로 잘 표현할 수 있게 가공되지 않은 데이터를 가공하는 것을 의미한다. 나는 데이터 분석에 앞에서 가장 중요한 작업이라고 생각한다. 일반적인 생각해 볼 수 있는것은 필요 없는 것을 빼거나 scale을 잘 조정을 한다던지, 결측치 제거, 미싱처리 같은 것이 있다고 한다. 적다 보니 preprocessing하고 비슷한 것 같기도 하고.... 모델 성능을 높이기 위해서 데이터 과학자들이 할 수 있는 방법 중의 하나라고 한다. 1. You can isolate and highlight key informa..
2019.05.06 -
Design Thinking에 대하여
Feature Engineering 이라는 medium 글을 읽다가 Design Thinking에 대한 내용이 있고 좋은 글을 또 추천해줘서 읽어보기로 했다. 여기서 Design Thinking 정의를 다음과 같이 한다. > Design Thinking is a design methodology that provides a solution-based approach to solving problems. Design Thinking이란 문제를 해결하기 위한 해결 기반 접근법을 제공하는 방법론이라는 소리인 것 같은데, 이런 방법들이 복잡한 문제에 대해서 prototyping and testing 에서 굉장히 실용적인 접근 방법이라고 합니다. 여기서는 the Hasso-Plattner Institute of ..
2019.05.06 -
threshold는 어떻게 정해야 할까? 개인적인 간단한 생각
우리가 어떤 모델링을 하고 나오는 값은 결국 확률 값으로 나오게 된다. 보통은 argmax 나 max f1 , 대충 0.5 같은 기준을 통해서 예측 타깃 값을 구한 다음 Confusion Matrix를 구해서 Accuracy 도 보고 Recall , Precision 같은 것을 확인해서 모델을 평가하게 된다. 그러면 이러한 기준이 되는 threshold(=cut off)는 어떻게 정해야 할까? 최근 겪고 있는 문제는 데이터가 imbalance 할 때 모델의 확률 값을 봤을 때 0의 경우에는 확실히 0이지만 1인 경우에는 0.01 ~ 0.001 이러한 부근에 있다. 보통 이러한 cut off 문제를 완화하기 위해 추천하는 방법은 undersampling, oversampling, sensitive cost..
2019.05.04 -
Andrew NG Regularization 중 인상깊었던 것만
## Edwidth https://www.edwith.org/deeplearningai2/joinLectures/20015 심층 신경망 성능 향상시키기 강좌소개 : edwith - 커넥트재단 www.edwith.org Regularization Overfitting 방지 Dropout 은 몇개를 제외함으로써 특정변수의 의존도를 줄여서 분산을 크게하는식 Input 에서는 거의 0.999 나 1 Overfitting 이 발생될것같은곳만 하기 이미지에서는 일반적으로 사용하나 일단 오버피팅이 나는지 체크해보고 하는 것이 좋음 이미지는 픽셀 단위고 데이터가 적어서 overfitting이 많이 일어나므로 한다고 함 l1 norm 거의 사용 x L2norm = weight decay 와 같은 효과 Dropout 도 ..
2019.05.04