[ 변수 생성] pandas groupby 와 merge로 파생변수 넣기
2019. 5. 21. 20:41ㆍ분석 Python/Data Preprocessing
인터넷에 R처럼 파이썬에서 Groupby후 컬럼을 바로 생성하는 게 잘 보이지 않아서 공유합니다.
data[['Location','month' , 'Sunshine']].head()
이러한 변수가 있을 때, 해보고 싶은 것은 지역과 월을 이용하여서 평균 온도를 넣고 싶을 때가 있다.
그럴 때 다음과 같이 하면 된다.
newdata = data.groupby(['Location','month'], group_keys=False).apply(lambda x: x.Sunshine.mean() ).reset_index()
newdata.columns = ["Location", 'month', "Shunshine_mean"]
data2 = pd.merge(data, newdata, how='left')
다음과 같이하면 데이터에 잘 붙일 수가 있다!
파생변수는 만들었지만, 실제로 분류할 때는 전혀 도움이 안될 것 같다...ㅠ
끝
728x90
'분석 Python > Data Preprocessing' 카테고리의 다른 글
[변수 처리] Python에서 범주형 변수(Categorical) 다루기 (0) | 2019.09.13 |
---|---|
[ 변수 처리] 파이썬 결측치 대체 알고리즘 비교 예시 (4) | 2019.09.10 |
[변수 처리] 011011 같은 값을 multiple label encoding 으로 만들어주기 (0) | 2019.07.16 |
[변수 생성] AutoEncoder로 파생변수 만들기 -2 (모델링 파트) Catboost (0) | 2019.06.02 |
[변수 생성] AutoEncoder로 파생변수 만들기 (0) | 2019.06.02 |