꿈만 꾸는 학부생 2022. 7. 7. 17:10
728x90

오늘은 3일 간 강의 들은 것을 바탕으로 미션을 수행하는 날이었습니다.

Kaggle에 있는 netflix 데이터를 이용해 2가지 Mission을 해결해야 했습니다.

 

2번째 Mission이 좀 힘들었습니다. 'country' column 중에서 단일 국가와 아닌 것을 구별하는 방법이 쉽지가 않았습니다. country 중에는 NaN도 있었기 때문에 이 경우에 대한 처리도 생각해야 했습니다.

저는 단일 국가이면 True, 아니면 False를 담는 Series를 만드는 과정을 먼저 거쳤고, 이 Series를 통해 netflix 정보를 가지고 있는 dataframe을 filtering 했습니다.

그리고 groupby와 통계 함수를 거치면 Series를 반환한다는 것과 Series를 파이썬의 딕셔너리처럼 활용할 수 있다는 점을 이용해 최댓값을 가진 나라의 이름을 for문을 통해 찾았습니다.

# 가장 많이 올린 단일 국가 찾기
nfx_by_solo_cuntry = filtered_netflix["show_id"].groupby(by=filtered_netflix["country"])
product_cnt_series = nfx_by_solo_cuntry.count()
most_cnt = max(product_cnt_series)
for key, val in product_cnt_series.items():
    if val == most_cnt:
        print(key)
728x90