python EDA를 위한 자동 시각화 sweetviz 사용해보기

2020. 7. 18. 12:24분석 Python/Visualization

728x90

sweetviz를 통해서 데이터의 상관관계나 분포 그리고 통계치를 보여준다.

비슷한 패키지로는 pandas_profiling이 있다.

안정성면에서는 테스트 결과 pandas_profiling이 더 좋아 보였다.

nan이 있으면 아직은 에러가 나는 이유가 있다.

그래도 좋은 점이 2가지 데이터셋을 비교한다던지, 뭔가를 비교한다고 했을 때 굉장히 유용해 보인다.

예를 들어 기존 타깃 0 , 1과 예측 타겟 0 ,1을 비교한다던지 하였을 때 어떻게 구성이 다른 지도 볼 수 있어 보이고

암튼 유용할 것 같아서 공유한다!

import pandas as pd
import sweetviz as sv
df = pd.read_csv("./../../DATA/ENB2012_data.csv")

## 시각화

advert_report = sv.analyze(df)
#display the report
advert_report.show_html('./sweetviz_Advertising.html')

## comparision datasets
df1 = sv.compare(df.sample(600), df.sample(100))
df1.show_html('./sweetviz_Compare.html')

 

df1 = sv.compare([df.sample(600),"Train"], [df.sample(100),"Test"], "Y1")
df1.show_html('./sweetviz_Compare_Target.html')

 

titanic_train = pd.read_csv("./../../DATA/titanic/train.csv")
titanic_test = pd.read_csv("./../../DATA/titanic/test.csv")
df1 = sv.compare([titanic_train,"Train"], [titanic_test,"Test"], "Survived")
df1.show_html('./sweetviz_Compare_Titanic.html')

feature_config = sv.FeatureConfig(skip="PassengerId", force_cat=["Ticket"])
my_report = sv.compare([titanic_train, "Train"], [titanic_test, "Test"], "Survived", feature_config)
my_report.show_html('./sweetviz_Compare_Titanic_set_config.html')
my_report = sv.compare_intra(titanic_train, titanic_train["Sex"] == 'male', ["Male", "Female"], 'Survived')
my_report.show_html('./sweetviz_Compare_Titanic_compare_intra.html') # Not providing a filename will default to SWEETVIZ_REPORT.html

feature_config = sv.FeatureConfig(skip="PassengerId", force_cat=["Parch"])
my_report = sv.compare_intra(titanic_train, titanic_train["Embarked"] == "S",["S","Q"], 'Survived',feature_config) 
my_report.show_html('./sweetviz_Compare_Titanic_compare_intra.html') # Not providing a filename will default to SWEETVIZ_REPORT.html

 

https://towardsdatascience.com/powerful-eda-exploratory-data-analysis-in-just-two-lines-of-code-using-sweetviz

-6c943d32f34

 

 

Powerful EDA (Exploratory Data Analysis) in just two lines of code using Sweetviz

Get to know your data much quicker with this new Python library

towardsdatascience.com

728x90