python EDA를 위한 자동 시각화 sweetviz 사용해보기

2020. 7. 18. 12:24분석 Python/Visualization

728x90

sweetviz를 통해서 데이터의 상관관계나 분포 그리고 통계치를 보여준다.

비슷한 패키지로는 pandas_profiling이 있다.

안정성면에서는 테스트 결과 pandas_profiling이 더 좋아 보였다.

nan이 있으면 아직은 에러가 나는 이유가 있다.

그래도 좋은 점이 2가지 데이터셋을 비교한다던지, 뭔가를 비교한다고 했을 때 굉장히 유용해 보인다.

예를 들어 기존 타깃 0 , 1과 예측 타겟 0 ,1을 비교한다던지 하였을 때 어떻게 구성이 다른 지도 볼 수 있어 보이고

암튼 유용할 것 같아서 공유한다!

import pandas as pd
import sweetviz as sv
df = pd.read_csv("./../../DATA/ENB2012_data.csv")

## 시각화

advert_report = sv.analyze(df)
#display the report
advert_report.show_html('./sweetviz_Advertising.html')

## comparision datasets
df1 = sv.compare(df.sample(600), df.sample(100))
df1.show_html('./sweetviz_Compare.html')

 

df1 = sv.compare([df.sample(600),"Train"], [df.sample(100),"Test"], "Y1")
df1.show_html('./sweetviz_Compare_Target.html')

 

titanic_train = pd.read_csv("./../../DATA/titanic/train.csv")
titanic_test = pd.read_csv("./../../DATA/titanic/test.csv")
df1 = sv.compare([titanic_train,"Train"], [titanic_test,"Test"], "Survived")
df1.show_html('./sweetviz_Compare_Titanic.html')

feature_config = sv.FeatureConfig(skip="PassengerId", force_cat=["Ticket"])
my_report = sv.compare([titanic_train, "Train"], [titanic_test, "Test"], "Survived", feature_config)
my_report.show_html('./sweetviz_Compare_Titanic_set_config.html')
my_report = sv.compare_intra(titanic_train, titanic_train["Sex"] == 'male', ["Male", "Female"], 'Survived')
my_report.show_html('./sweetviz_Compare_Titanic_compare_intra.html') # Not providing a filename will default to SWEETVIZ_REPORT.html

feature_config = sv.FeatureConfig(skip="PassengerId", force_cat=["Parch"])
my_report = sv.compare_intra(titanic_train, titanic_train["Embarked"] == "S",["S","Q"], 'Survived',feature_config) 
my_report.show_html('./sweetviz_Compare_Titanic_compare_intra.html') # Not providing a filename will default to SWEETVIZ_REPORT.html

 

https://towardsdatascience.com/powerful-eda-exploratory-data-analysis-in-just-two-lines-of-code-using-sweetviz

-6c943d32f34

 

 

Powerful EDA (Exploratory Data Analysis) in just two lines of code using Sweetviz

Get to know your data much quicker with this new Python library

towardsdatascience.com

728x90

데이터분석뉴비님의
글이 좋았다면 응원을 보내주세요!