자격증/ADSP

[2과목] 데이터 분석 기획

He__o 2022. 6. 19. 13:47

1. 분석 기획 방향성 도출

 

▶ 분석 주제 유형

분석 주제 유형 분석 대상 (What)
know  un-know
분석 방법 (How) know 최적화 (Optimization) 통찰 (Insight)
un-know 솔루션 (Solution) 발견 (Discovery)

 

 

▶ 목표 시점별 분석 기획 방안

당면한 분석주제의 해결
( 과제단위 )
 
지속적 분석 문화 내재화
( 마스터플랜 단위 )
Speed & Test 1차 목표 Accuracy & Deploy
Quick - win 과제 유형 Long Term View
Problem Solving 접근방식 Problem Definition

 

 

▶ 분석 기획 시 고려사항

▷ 가용 데이터

데이터 저장방식
RDB NoSQL 분산파일시스템(DFS)

▷ 적절한 유스케이스 탐색 ( Proper use-case ) : 유사 분석 시나리오 및 솔루션 활용

▷ 장애 요소들에 대한 사전 계획 수립이 필요 ( Low Barrier of execution )

 

 

 

2. 분석방법론

 

기업의 합리적 의사결정 장애요소

 ① 고정관념

 ② 편향된 생각 ( Bias )

 ③ 프레이밍 효과 (Framing effect ) : 문제의 표현 방식에 따라 동일 사건·상황임에도 불구하고 개인의 판단이나 선택이 달라질 수 있는 현상

 

 

적용 업무 특성에 따른 모델

폭포수 모델 단계 순차적 진행을 하며 문제 발견 시 전 단계로 피드백 과정 수행
프로토타입 모델 점진적으로 시스템을 개발해가는 접근방식 ( 폭포수 모델 단점 보완 ),
우선개발을 통한 평가로 개선작업 시행
나선형 모델 반복을 통해 점증적 개발, 처음 시도하는 프로젝트에 적용이 용이하지만
반복에 대한 관리체계가 효과적이지 않으면 복잡도가 커져 어려움

 

 

▶ 방법론 구성

단계 ( Phase ) 최상위 계층, 프로세스 그룹을 통한 산출물 ⇒ 단계별 완료 보고서
태스크 ( Task ) 단계를 구성하는 단위 ⇒ 보고서
스탭 ( Step ) WBS, input, output, 처리 및 도구 ⇒ 보고서 구성 요소

 

 

▶ 방법론

▷ KDD 분석 방법론

  : 통계적 패턴이나 지식 탐색을 하는 기계학습, 데이터마이닝, 인공지능, 시각화 등에서 응용될 수 있는 구조

 

 ① 분석대상 비즈니스 이해

 ② 데이터셋 선택 : target data 구성

 ③ 데이터 전처리 : 잡음, 이상값, 결측치 식별 후 필요시 제거 (정제)

 ④ 데이터 변환 : 변수 선택, 데이터 차원 축소

 ⑤ 데이터 마이닝 : 기법/알고리즘 선택, 데이터마이닝 작업 시행

 ⑥ 결과 평가 및 활용

 

▷ CRISP-DM 분석 방법론 (계층적 프로세스 모델)

 

 ① 업무이해 : 문제 정의, 프로젝트 계획 수립

 ② 데이터 이해 : 인사이트 발견, 데이터 수집/탐색/분석, 품질확인

 ③ 데이터 준비 : 분석 데이터셋 선택, 데이터 정제, 통합, 포맷팅

 ④ 모델링 : 모델 과적합 등의 문제를 발견하고 대응 방안 마련

    * Overfitting : 너무 열심히 학습을 해서 불필요한 것까지 배우는 현상

 ⑤ 평가

 ⑥ 전개

 

 

▶ 빅데이터 분석 방법론

 ① 분석 기획 : 비즈니스 이해 및 범위 설정, 프로젝트 정의 및 계획 수립, 프로젝트 위험 계획 수립

  * 위험 대응계획 수립 : 회피, 전이, 완화, 수용으로 구분하여 계획

 ② 데이터 준비 : 필요 데이터 정의, 데이터 수집 및 적합성 점검

 ③ 데이터 분석 : 분석용 데이터 준비, 탐색적 분석, 모델링

 ④ 시스템 구현

 ⑤ 평가 및 전개

 

 

 

3. 분석 과제 발굴

 

분석 과제 발굴 방법론

▷ 하향식 접근 방식 ( Top Down approach )

 ① 문제 탐색

   - 비즈니스 모델 기반 문제 탐색 영역: 업무, 제품, 고객, 규제와 감사, 지원 인프라

   - 분석 기회 발굴의 범위 확장 : 거시적 관점(STEEP), 시장니즈 탐색(고객, 채널, 영향자들), 경쟁자확대(대체제, 경쟁자, 신규진입자)

   * STEEP : Social(사회), Technological(기술), Economic(경제), Environmental(환경), Political(정치)

 ② 문제정의

 ③ 해결방안탐색

 ④ 타당성검토

 

▷ 상향식 접근 방식 ( Bottom Up approach )

  - 문제 정의 자체가 어려운 경우 데이터 기반으로 문제 재정의/해결방안 탐색하고 지속적으로 개선하는 방식

  - 비지도 학습방법에 의해 분석 수행

  - 왜 그런일이 발생하는지 역 추척하면서 문제 재정의 가능

    ⇒ 두 접근 방법의 반복적으로 혼용되는 경우 디자인 사고 프로세스라고 할 수 있음

  * 디자인 사고 5단계 : 공감 - 정의 - 아이디어화 - 프로토타입 -검증

  * 지도/비지도 학습의 차이는 target 유무

 

 

 

4. 분석 프로젝트 관리 방안

 

▶ 분석 과제 주요 특성 관리 영역

▷ Data Size

▷ Data complexity

▷ Speed

▷ Analytic complexity : 분석 모델이 복잡할수록 정확도는 올라가지만 해석이 어려워지므로 기준점 사전 정의 중요

▷ Accuracy & Precision : 모델과 실제값 사이의 차이가 적은 정확도와 모델을 지속적 반복했을 때의 편차수준인 precision은 trade off의 경우가 많으므로 사전 고려해야 함 ( accuracy-활용적 측면, precision-안정적 측면에서 중요 )

▶ 분석 프로젝트의 특성

▷ 분석 프로젝트는 도출된 결과의 재해석을 통한 지속적 반복 및 정교화가 수행되는 경우가 대부분이므로 프로토타이핑 방식의 애자일 프로젝트 관리방식에 대한 고려가 필요함

  - Agile 모델 : 일정 주기를 가지고 끊임없이 프로토타입을 만들며 필요할 때마다 수정하여 커다란 소프트웨어 개발해가는 방식