DataScience trainee

EDA - nefilx

EDA netflix data


1. 개요


2. 라이브러리

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

sns.set_theme(style='whitegrid')

3. 데이터 파악

df = pd.read_csv("./netflix_titles.csv")
df.head()

df.info()

df.isnull().sum()
  • 먼저 head()함수를 통해 앞에서 5개만 살펴보고 어떤 구조인지 살펴봅니다
  • info()함수를 통해 좀 더 상세한 정보를 알 수 있습니다.
  • 마지막으로 null값의 정보를 확인해 보았습니다.

  • 이번 데이터 분석의 목표는 시각화 이기때문에 null값이 큰 의미를 가지지는 않는다고 생각하여 null값에 대한 처리는 해주지 않았습니다.

4. 시각화

sns.histplot(data=df,x='release_year')

EDA1_1

# Too many country, so select top 20 country
data_1 = df['country'].value_counts().reset_index().head(20)
data_1.columns = ['Country' , 'Count']

plt.figure(figsize = (11,11))
sns.barplot(x = 'Count' , y = 'Country' , data = data_1)
plt.title('Top 20 countries with the most Netflix content' , fontdict={ 'fontweight' : 'bold', 'fontsize' : 18 })
plt.show()

EDA1_2

direc_data = df['director'].value_counts().reset_index().head(20)
direc_data.columns = ['director', 'counts']

# plt.figure(figsize=(11,11))
# plt.pie(data=direc_data, x='counts', y='director')
# plt.title("Most Hardworking Director TOP 20", fontdict={ 'fontweight' : 'bold', 'fontsize' : 18 })

plt.figure(figsize=(16, 16))
plt.pie(direc_data.counts,
       labels=direc_data.director,
       autopct='%d%%',
       startangle=90,
       textprops={'fontsize':12})
plt.axis('equal')
plt.title("Who is the most Hardworker", fontsize=30)

EDA1_3


마치며

이번 포스팅은 지금까지 배운 데이터 분석능력을 통해 실제 데이터를 시각화 해보는 연습을 해보았습니다. 앞으로 가능한 이런 데이터 분석 실습을 최대한 많이 해보려고 합니다.