코딩뿌셔
[02] 데이터 확인 및 분석 주제 도출 본문
1. 데이터 불러오기
2. 데이터 확인
3. 분석 주제 도출
1. 데이터 불러오기
[01] 데이터 수집 및 분석 준비에서 만든 한글 컬럼명 데이터를 불러옵니다.
import pandas as pd
# 데이터 불러오기
file_path = './data/df_kor.csv'
df = pd.read_csv(file_path)
df
승차시각 | 하차시각 | 노선명 | 노선설명 | 승객연령 | 환승여부 | 추가운임여부 | 승차정류장 | 승차정류장 GPS X | 승차정류장 GPS Y | 하차정류장 | 하차정류장 GPS X | 하차정류장 GPS Y | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 20200102051049 | 20200102051844 | 131 | 양덕-송도-시청-양학-양덕 | 일반 | N | N | 양덕차고지 | 129.401693 | 36.077258 | 동부초등학교 | 129.380866 | 36.062209 |
1 | 20200102051338 | 20200102054549 | 175 | 문덕-고속터미널-선린병원-달전 | 일반 | N | N | 문덕사거리 | 129.403178 | 35.962298 | 새마을금고해도지점 | 129.370626 | 36.015468 |
2 | 20200102051549 | 20200102051930 | 160 | 문덕-대송-송도-죽도-용흥 | 일반 | N | N | 문덕사거리 | 129.403442 | 35.962846 | 성우오토모티브 | 129.384492 | 35.972675 |
3 | 20200102051617 | 20200102055046 | 175 | 문덕-고속터미널-선린병원-달전 | 일반 | N | N | 부영사랑3차 | 129.402520 | 35.973038 | 오거리 | 129.366312 | 36.031816 |
4 | 20200102051841 | 20200102052310 | 102 | 문덕-남구청-고속터미널-북구보건소-양덕 | 일반 | N | N | 문덕온천 | 129.406532 | 35.961964 | 용덕사거리 | 129.415174 | 35.972826 |
... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... |
842603 | 20200331231529 | 20200331232033 | 109 | 양덕-우현-시외터미널-유강(위덕대)-자명-양덕 | 일반 | N | N | 법원사거리 | 129.387740 | 36.089380 | 농협하나로클럽 | 129.398558 | 36.081653 |
842604 | 20200331231651 | 20200331232054 | 108 | 양덕-죽도-양학-시청-유강-지곡 | 일반 | N | N | LG빌라입구 | 129.317277 | 36.027317 | 대잠중앙하이츠 | 129.338901 | 36.021808 |
842605 | 20200331233806 | 20200331234546 | 107 | 문덕-시외(고속)터미널-흥해 | 일반 | N | N | 대동우방아파트 | 129.360209 | 36.050494 | 상대시장 | 129.361983 | 36.019438 |
842606 | 20200331234833 | 20200331235954 | 175 | 문덕-고속터미널-선린병원-달전 | 일반 | N | N | 해병대서문 | 129.413196 | 35.977037 | 부영사랑3차 | 129.402238 | 35.973022 |
842607 | 20200331235643 | 20200401000408 | 102 | 문덕-남구청-고속터미널-북구보건소-양덕 | 일반 | N | N | 해병대서문 | 129.413196 | 35.977037 | 문덕사거리 | 129.402914 | 35.962293 |
842608 rows × 13 columns
2. 데이터 확인
데이터를 확인해보면 승하차시각, 노선명, 승객연령, 정류장 등을 확인할 수 있습니다.
승차시각과 하차시각은 년-월-일-시-분-초의 형태로 보이며 정수타입입니다.
이를 활용하면 기준월 및 일자별, 시간대별 버스이용량 등을 분석하거나
승차시각과 하차시각을 이용하여 버스 내 체류시간도 분석해볼 수 있을 것 같습니다.
승객연령의 경우는 일반, 청소년, 어린이, None으로 구분되어 있습니다.
교통카드 승객연령 구분에는 None 값이 있는데 이는 에러값으로 추정되며,
이는 카드를 여러장 찍어 인식이 안된 경우나 잔액부족 등으로 다시 찍어야 하는 경우로 추측됩니다.
이렇게 데이터를 확인하며 어떤 것을 분석할 수 있는지 찾아내는 연습이 필요합니다.
다음으로 분석 주제를 선정해보겠습니다.
3. 분석 주제 도출
▶ 시간대별 버스 이용량 분석
▷ 기준월 및 일자별 버스이용량 분석
▷ 기준시간 및 시간(분)별 버스이용량 분석
▶ 버스 내 체류시간 분석
▷ 기준일 및 시간대별 버스 내 체류시간 분석
▷ 시간별 체류시간
▷ 승객구분별 체류시간
▶ 승하차 정류장(구간)별 체류시간 분석
▷ 체류시간이 상위권에 속하는 승하차 구간 분석
'Data Analysis > 포항시 버스사용자 교통카드 내역 분석' 카테고리의 다른 글
[03] 시간대별 버스 이용량 분석 (0) | 2022.06.26 |
---|---|
[01] 데이터 수집 및 분석 준비 (0) | 2022.06.19 |
Comments