목록데이터분석 (10)
코딩뿌셔
1. 데이터 불러오기 2. 데이터 확인 3. 분석 주제 도출 1. 데이터 불러오기 [01] 데이터 수집 및 분석 준비에서 만든 한글 컬럼명 데이터를 불러옵니다. import pandas as pd # 데이터 불러오기 file_path = './data/df_kor.csv' df = pd.read_csv(file_path) df 승차시각 하차시각 노선명 노선설명 승객연령 환승여부 추가운임여부 승차정류장 승차정류장 GPS X 승차정류장 GPS Y 하차정류장 하차정류장 GPS X 하차정류장 GPS Y 0 20200102051049 20200102051844 131 양덕-송도-시청-양학-양덕 일반 N N 양덕차고지 129.401693 36.077258 동부초등학교 129.380866 36.062209 1 202..
1. 분석 마스터플랜 수립 ▶ 프레임 워크 우선순위 고려 적용 범위/방식 고려 요소 ① 전략적 중요도 ⇒ 적용 우선순위 결정 ① 업무 내재화 적용 수준 ⇒ 분석 구현 로드맵 수립 ② 비즈니스 성과 / ROI ② 분석 데이터 적용 수준 ③ 실행 용이성 ③ 기술 적용 수준 ▷ 분석 마스터플랜은 일반적으로 ISP( 정보전략계획 ) 방법론을 활용하되 기획 특성을 고려하여 우선순위 결정 후 단기 및 중·장기로 나누어 계획을 수립함 ▶ ROI 관점 분석 과제 우선순위 평가 기준 과제 우선순위 평가 기준 시급성 - 전략적 중요도 - 목표가치 난이도 - 데이터 획득/저장/가공 비용 - 분석 적용 비용, 분석 수준 2. 분석 거버넌스 체계 수립 ▶ 분석 거버넌스 체계 구성요소 Process System Data Orga..
1. 분석 기획 방향성 도출 ▶ 분석 주제 유형 분석 주제 유형 분석 대상 (What) know un-know 분석 방법 (How) know 최적화 (Optimization) 통찰 (Insight) un-know 솔루션 (Solution) 발견 (Discovery) ▶ 목표 시점별 분석 기획 방안 당면한 분석주제의 해결 ( 과제단위 ) 지속적 분석 문화 내재화 ( 마스터플랜 단위 ) Speed & Test 1차 목표 Accuracy & Deploy Quick - win 과제 유형 Long Term View Problem Solving 접근방식 Problem Definition ▶ 분석 기획 시 고려사항 ▷ 가용 데이터 데이터 저장방식 RDB NoSQL 분산파일시스템(DFS) ▷ 적절한 유스케이스 탐색 (..
1. 데이터와 정보 2. 데이터베이스 정의와 특징 3. 데이터베이스 활용 1. 데이터와 정보 ▶ 데이터의 정의 ▷ 객관적 사실(fact) 라는 존재적 특성을 가짐. 데이터는 개별 데이터 자체로는 의미가 중요하지 않음. ▷ 추론, 예측을 위한 근거(basis)로 기능하는 당위적 특성을 가짐. 다른 객체와의 상호 관계 속에서 가치를 가짐. ▶ 데이터의 유형 ▷ 정성적 데이터 : 언어, 문자 ( 비정형 형태로 분석시간과 비용이 필요 ) ▷ 정량적 데이터 : 수치, 기호, 도형 ( 저장과 분석이 용이함 ) ▶ 지식경영 ▷ 암묵지 + 형식지 상호작용 속 지식의 공유와 생성 - 암묵지 : 학습과 체험을 통해 개인에게 습득 ( 경험, 무형지식 등으로 공유가 어려움 ) - 형식지 : 공유할 수 있는 지식 ( 외부 표출..

1. 데이터 다운로드 2. 데이터 파일 확인 3. 데이터 컬럼명 변경 ( 영문 → 한글 ) 1. 데이터 다운로드 포항시 버스사용자 교통카드 내역 데이터를 가져와 데이터 분석 연습을 해보겠습니다. 데이터는 국가교통 데이터 오픈마켓에서 '포항시'를 검색하면 포항시 BIS 교통카드 사용내역 데이터를 확인할 수 있습니다. 사이트 로그인 후 무료 구매 가능하니 구매 후 다운로드 해줍니다. 전체 선택 후 다운로드 하시면 80개 파일이 다운로드 됩니다. 2. 데이터 파일 확인 파일 이름에 공백이 있으므로 전체 선택 후 파일명을 변경해봅시다. 전체 선택 후 첫번째 파일 이름을 공백 제거한 trfcard(0)으로 변경하고 엔터해줍니다. 이후는 자동으로 변경됩니다. 파일을 열어보면 보두 동일한 이름의 데이터 파일과 데이터..