[ 변수 생성] pandas groupby 와 merge로 파생변수 넣기

2019. 5. 21. 20:41분석 Python/Data Preprocessing

728x90

인터넷에 R처럼 파이썬에서 Groupby후 컬럼을 바로 생성하는 게 잘 보이지 않아서 공유합니다.

 

data[['Location','month' , 'Sunshine']].head()

이러한 변수가 있을 때, 해보고 싶은 것은 지역과 월을 이용하여서 평균 온도를 넣고 싶을 때가 있다.

그럴 때 다음과 같이 하면 된다.

newdata = data.groupby(['Location','month'], group_keys=False).apply(lambda x: x.Sunshine.mean() ).reset_index()
newdata.columns = ["Location", 'month', "Shunshine_mean"]
data2 = pd.merge(data, newdata, how='left')

다음과 같이하면 데이터에 잘 붙일 수가 있다!

 

파생변수는 만들었지만, 실제로 분류할 때는 전혀 도움이 안될 것 같다...ㅠ

 

 

728x90