python EDA를 위한 자동 시각화 sweetviz 사용해보기
2020. 7. 18. 12:24ㆍ분석 Python/Visualization
sweetviz를 통해서 데이터의 상관관계나 분포 그리고 통계치를 보여준다.
비슷한 패키지로는 pandas_profiling이 있다.
안정성면에서는 테스트 결과 pandas_profiling이 더 좋아 보였다.
nan이 있으면 아직은 에러가 나는 이유가 있다.
그래도 좋은 점이 2가지 데이터셋을 비교한다던지, 뭔가를 비교한다고 했을 때 굉장히 유용해 보인다.
예를 들어 기존 타깃 0 , 1과 예측 타겟 0 ,1을 비교한다던지 하였을 때 어떻게 구성이 다른 지도 볼 수 있어 보이고
암튼 유용할 것 같아서 공유한다!
import pandas as pd
import sweetviz as sv
df = pd.read_csv("./../../DATA/ENB2012_data.csv")
## 시각화
advert_report = sv.analyze(df)
#display the report
advert_report.show_html('./sweetviz_Advertising.html')
## comparision datasets
df1 = sv.compare(df.sample(600), df.sample(100))
df1.show_html('./sweetviz_Compare.html')
df1 = sv.compare([df.sample(600),"Train"], [df.sample(100),"Test"], "Y1")
df1.show_html('./sweetviz_Compare_Target.html')
titanic_train = pd.read_csv("./../../DATA/titanic/train.csv")
titanic_test = pd.read_csv("./../../DATA/titanic/test.csv")
df1 = sv.compare([titanic_train,"Train"], [titanic_test,"Test"], "Survived")
df1.show_html('./sweetviz_Compare_Titanic.html')
feature_config = sv.FeatureConfig(skip="PassengerId", force_cat=["Ticket"])
my_report = sv.compare([titanic_train, "Train"], [titanic_test, "Test"], "Survived", feature_config)
my_report.show_html('./sweetviz_Compare_Titanic_set_config.html')
my_report = sv.compare_intra(titanic_train, titanic_train["Sex"] == 'male', ["Male", "Female"], 'Survived')
my_report.show_html('./sweetviz_Compare_Titanic_compare_intra.html') # Not providing a filename will default to SWEETVIZ_REPORT.html
feature_config = sv.FeatureConfig(skip="PassengerId", force_cat=["Parch"])
my_report = sv.compare_intra(titanic_train, titanic_train["Embarked"] == "S",["S","Q"], 'Survived',feature_config)
my_report.show_html('./sweetviz_Compare_Titanic_compare_intra.html') # Not providing a filename will default to SWEETVIZ_REPORT.html
728x90
'분석 Python > Visualization' 카테고리의 다른 글
[seaborn] clustermap, heatmap으로 시각화하기 (0) | 2020.08.20 |
---|---|
[Python] 결측치 시각화 missingno 사용하기 (0) | 2020.07.23 |
Hiplot 으로 하이퍼 파라미터 시각화하기 (0) | 2020.07.09 |
Pandas 에서 Plotly backend 사용하기 (0) | 2020.07.02 |
seaborn에 FacetGrid 를 활용해서 다중 플랏 해보기 (0) | 2020.07.02 |