문제와 데이터 이해하기

2018. 1. 3. 21:48ML(머신러닝)/BASIC

머시러닝 과정에서 가장 중요한 것은 데이터 이해하고 그 데이터가 해결 해야 할 문제와 어떤 관련이 있는지 이해하는 일이다.


왜냐하면 알고리즘마다 잘 들어맞는 데이터나 문제의 종류가 다르기 때문이다.


최소한 마음에 담아둘 사항

1. 어떤 질문에 대한 답을 원하는가? 가지고 있는 데이터가 원하는 답을 줄 수 있는가?


2. 내 질문을 머신러닝 문제로 가잘 잘 기술하는 방법은 무엇인가?


3. 문제를 풀기에 충분한 데이터가 있는가?


4. 내가 추출한 데이터의 특성은 무엇이며 좋은 예측을 만들어 낼 수 있는 것인가?


5. 머신러닝 어플리케이션 성과를 어떻게 측정할 것인가


6. 머신러닝 솔루션이 다른 연구나 제품과 어떻게 협력 할 수 있겠는가?


## 항상 머린속에 큰 그림을 생각하자 


# Python

필수 library

numpy, Scipy , matplotlib , pandas , mglearn 


가장 먼저 할일 : 데이터 살펴보기


시각화 -> 산점도 

728x90