상세 컨텐츠

본문 제목

[코드스테이츠 PMB 11기] 데이터 시각화 연습

코드스테이츠 PMB 11기/DAILY ASSIGNMENT

by hithisiseunji 2022. 4. 22. 00:17

본문

W6D4 DAILY 과제

 

데이터 시각화를 위해 우버(uber)의 픽업데이터를 가지고왔다.

https://www.kaggle.com/datasets/fivethirtyeight/uber-pickups-in-new-york-city?select=uber-raw-data-apr14.csv 

 

Uber Pickups in New York City

Trip data for over 20 million Uber (and other for-hire vehicle) trips in NYC

www.kaggle.com

 

내가 살펴볼 데이터는 뉴욕시에서 2014년 4월 한 달간 발생한 픽업 시간, 위치(위도, 경도) 를 포함한다.

데이터는 대략 다음과 같다.

**Lat : latitude, Lon: longitude

시간, 위치 데이터를 가지고 세 가지 정도를 확인할 수 있을 것이라고 가설을 세웠다.

 

1. 중심가, 큰 길에 가까울수록 픽업수는 증가한다.

2. 주중과 주말의 픽업 수는 차이가 날 것이다.

3. 시간대별로 출근시간, 퇴근시간에 픽업 수가 높을 것이다.

 


1. 중심가와 큰 길일수록 픽업 수는 증가한다.

당연한 말이지만.. 중심가로 갈수록, 큰 길에 가까울 수록 픽업 횟수가 높다고 볼 수 있다.

다만, 비교적 유동인구가 적어보이는 도로에서도 택시 픽업 빈도수가 높은 것으로 보아, 우버의 호출택시 특성이 반영된 것으로 보인다. 혹은 뉴욕 자체가 전반적으로 유동인구가 많아서 그럴수도...

(이 자료는 더 유용하게 쓸 수 있을 것 같은데... 지역 지리에 대한 지식이 없어 여기까지만 보이는 것 같다.)

html 파일로 다운받았는데 너무 커서 캡쳐본으로 대신한다..
확대해서 보면 대체로 큰 길 가에서 픽업이 많이 이루어진다. (당연한 사실...)뉴욕 지리를 알았으면 뭔가 보였을수도 있겠다


2. 주중과 주말의 픽업 수는 차이를 보일 것이다.

빨간 선: 평균값

weekday는 0~6 순서로 월~일요일이다.

픽업수는 화,수요일에 가장 많고, 월,일요일에 가장 적다.

일요일은 주중에 비해 차이가 난다고 볼 수 있지만, 토요일은 전체 평균과의 차이가 크기 않음을 확인할 수 있다.

월/일요일에 픽업수가 적은 이유, 수요일에 픽업수가 많은 이유에 대해 살펴볼 필요가 있다.

 


3. 시간대별로 출근/퇴근 시간에 픽업 수가 높을 것이다.

 

데이터 수가 너무 많아(불필요하게 시간이 많이 걸리는 것 같아서) 무작위로 데이터 2000개를 추출하여 진행해보았다. (분포는 원 데이터와 대체로 비슷하다.)

 

 

요일에 관계없이 시간에 따라 픽업 수를 표시해보았다.

오후~저녁 시간대의 이용 빈도가 높고, 오전에는 6~9시 사이에 픽업 수가 높다.

뉴욕의 유동인구 특성을 함께 살펴보면 좋을 듯하다.

 

시간별 픽업 수를 요일별로 나누어 선 그래프로 표시하였다.

토요일과 일요일은 주중과 다르게 0시 이후 새벽시간의 픽업 빈도가 높다.

그리고 일요일은 다른 요일과 달리 아침 시간의 픽업 수 증가를 보이지 않고 서서히 증가하는 양상을 보인다.

 

 

사용한 시각화 도구: python

(라이브러리: folium, seaborn, pandas)

관련글 더보기

댓글 영역