[ 변수 생성] pandas groupby 와 merge로 파생변수 넣기

인터넷에 R처럼 파이썬에서 Groupby후 컬럼을 바로 생성하는 게 잘 보이지 않아서 공유합니다.

data[['Location','month' , 'Sunshine']].head()

이러한 변수가 있을 때, 해보고 싶은 것은 지역과 월을 이용하여서 평균 온도를 넣고 싶을 때가 있다.

그럴 때 다음과 같이 하면 된다.

newdata = data.groupby(['Location','month'], group_keys=False).apply(lambda x: x.Sunshine.mean() ).reset_index()
newdata.columns = ["Location", 'month', "Shunshine_mean"]
data2 = pd.merge(data, newdata, how='left')

다음과 같이하면 데이터에 잘 붙일 수가 있다!

파생변수는 만들었지만, 실제로 분류할 때는 전혀 도움이 안될 것 같다...ㅠ

끝

'분석 Python > Data Preprocessing' 카테고리의 다른 글

[변수 처리] Python에서 범주형 변수(Categorical) 다루기 (0)	2019.09.13
[ 변수 처리] 파이썬 결측치 대체 알고리즘 비교 예시 (4)	2019.09.10
[변수 처리] 011011 같은 값을 multiple label encoding 으로 만들어주기 (0)	2019.07.16
[변수 생성] AutoEncoder로 파생변수 만들기 -2 (모델링 파트) Catboost (0)	2019.06.02
[변수 생성] AutoEncoder로 파생변수 만들기 (0)	2019.06.02

[ 변수 생성] pandas groupby 와 merge로 파생변수 넣기

끝

'분석 Python > Data Preprocessing' 카테고리의 다른 글

AI 도구

AI 도구 사이드 패널

티스토리툴바