자격증/ADP

[3과목] 데이터 분석 기획의 이해

He__o 2022. 8. 9. 23:26

1. 분석 기획 방향성 도출

1) 분석 기획

  • 분석 수행 전 과제 정의 및 결과 도출 관리 방안을 사전에 계획하는 일련의 작업
  • 어떠한 목표(what)를 달성하기 위해(why) 어떠한 데이터를 가지고 어떤 방식으로(how) 수행할 지에 대한 계획 수립

2) 데이터 사이언티스트 역량

  • 수학/통계학적 지식(Math & Statistics)
  • 정보IT 기술(Information Technology)
  • 비즈니스에 대한 이해와 전문성(Domain Knowledge)

3) 분석 대상과 방법

  • Optimization  →  Solution : 하향식 접근(Top down Approach)
  • Discovery  →  Insight : 상향식 접근(Bottom up Approach)
분석 방법(How) 분석 대상 (What)
Known Un-Known
Known Optimization Insight
Un-Known Solution Discovery

4) 목표 시점 별 분석 기획 방안

  • 과제 중심적인 접근 방식 : 당면한 과제를 빠르게 해결 (문제해결 Problem Solving)
  • 중·장기적인 마스터 플랜 방식 : 지속적인 분석 내재화 (분석과제 정의 Problem Definition)
당면한 분석 주제의 해결
(과제 단위)
구분 지속적 분석 문화 내재화
(마스터 플랜 단위)
Speed & Test ◁     1차 목표      ▷ Accuracy & Deploy
Quick & Win ◁    과제의 유형   ▷ Long Term View
Problem Solving ◁     접근 방식     ▷ Problem Definition

5) 분석 기획시 고려사항

  • 가용 데이터 (Available data)
    • 분석 데이터 확보가 우선적이며, 데이터 유형에 따라 적용 가능한 솔루션 및 분석 방법이 다르기 때문에 유형에 대한 분석이 선행적으로 이뤄져야 함
  • 적절한 활용방안과 유즈케이스 (Proper Business Use Case)
    • 기존에 잘 구현되어 활용되고 있는 유사 분석 시나리오 및 솔루션을 최대한 활용하는 것이 중요함
  • 장애요소들에 대한 사전계획 수립 (Low Barrier Of Execution)
    • 일회성 분석으로 그치지 않고 조직의 역량으로 내재화하기 위해서는 충분하고 계속적인 교육 및 활용방안 등 변화 관리(Change Management)가 고려되야 함

2. 분석 방법론

1) 개요

  • 데이터 분석이 효과적으로 기업 내 정착하기 위해서는 체계화한 절차/방법이 정리된 데이터 분석 방법론 수립이 필수
  • 프로젝트는 개인의 역량이나 조직의 우연한 성공에 기인해선 안되고, 일정 수준 품질을 갖춘 산출물과 프로젝트 성공 가능성을 확보하고 제시할 수 있어야 함
  • 방법론은 상세한 절차(Procedures), 방법(Methods), 도구와 기법(Tools & Techniques), 템플릿과 산출물(Templates & Outputs)로 구성되어 어느 정도의 지식만 있으면 활용 가능해야 함

2) 데이터 기반 의사결정의 필요성

  • 경험과 감보다 데이터 기반의 의사결정
  • 기업의 합리적 의사결정을 가로막는 장애요소 : 고정 관념(Stereotype), 편향된 생각(Bias), 프레이밍 효과(Framing Effect)

3) 방법론 생성과정

  • 암묵지 : 학습과 경험을 통해 개인에게 체화되어 있지만 겉으로 드러나지 않는 지식 (공유 어려움) - 공통화, 내면화
  • 형식지 : 문서나 메뉴얼처럼 형상화된 지식 (전달/공유 용이) - 표출화, 연결화

4) 방법론 적용 업무 특성에 따른 모델

  • 폭포수 모델(Waterfall Model)
    • 단계를 순차적으로 진행하는 방법, 이전단계가 완료되야 다음 단계로 진행 가능
  • 프로토타입 모델(Prototype Model)
    • 폭포수 모델 단점 보완, 점진적으로 시스템 개발하는 접근 방식
    • 고객 요구 분석의 어려움을 해결하기 위해 일부분 우선 개발하여 사용자에게 제공, 개선 작업
  • 나선형 모델(Spiral Model)
    • 반복을 통해 점증적으로 개발하는 방법
    • 처음 시도하는 프로젝트에 적용이 용이하지만 관리 체계를 효과적으로 갖추지 못한 경우 복잡도 상승

5) 방법론 구성 

단계   - 최상위 계층으로 프로세스 그룹을 통해 완성된 단계별 산출물 생성
  - 각 단계는 기준선으로 설정되어 관리, 버전관리 등을 통해 통제
  → 단계별 완료 보고서
태스크   - 단계를 구성하는 단위 활동(물리적/논리적 단위 품질검토 항목)   → 보고서
스탭   - WBS 워크패키지에 해당
  - 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스
  → 보고서 구성 요소

 

2-1. KDD 분석 방법론 (Knowledge Discovery in Databases)

1) 개요

  • 1996년 Fayyad가 프로파일링 기술을 기반으로 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스
  • 데이터마이닝, 기계학습, 인공지능, 패턴인식, 데이터 시각화 등 응용될 수 있는 구조

2) 분석 절차

  ① 데이터셋 선택 (Selection)

  • 분석대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정, 목표데이터 구성

  ② 데이터 전처리 (Preprocessing)

  • 데이터셋의 잡음(Noise)과 이상치(Outlier), 결측치(Missing Value) 식별/제거/재처리 등 정제

  ③ 데이터 변환 (Transformation)

  • 분석 목적에 맞게 변수 생성 및 차원 축소하여 효율적 데이터마이닝을 할 수 있도록 변경
  • 학습용 데이터(training data)와 검증용 데이터(test data)로 데이터 분리

  ④ 데이터 마이닝(Data Mining)

  • 분석 목적에 맞는 데이터마이닝 기법 선택, 적절한 알고리즘 적용하여 작업 실행
  • 데이터 전처리와 데이터 변환 프로세스를 추가 실행 가능

  ⑤ 데이터 마이닝 결과 평가 (Interpretation/Evaluation)

  • 데이터마이닝 결과 해석 및 평가, 분석 목적과의 일치성 확인

 

2-2. CRISP-DM 분석 방법론 (Cross Industry Standard Process for Data Mining)

1) 개요

  • 1996년 유럽연합의 ESPRIT 프로젝트에서 시작됨
  • 주요 5개 업체들(Daimler-Chrysler, SPSS, NCR, Teradata, OHRA)이 주도함

2) 구조 - 4레벨 

  • 단계 (Phases) : 최상위 레벨, 여러 개의 단계로 구성되며 각 단계는 일반화 태스크를 포함
  • 일반화 태스크 (Generic Tasks) : 데이터마이닝의 단일 프로세스를 완전하게 수행하는 단위
  • 세분화 태스크 (Specialized Tasks) : 일반화 태스크는 구체적인 수행 레벨인 세분화 태스크로 구성
  • 프로세스 실행 (Process Instances) : 마지막 레벨, 데이터마이닝을 위한 구체적인 실행을 포함

3) 계층적 프로세스

  • CRISP-DM 프로세스는 6단계로 구성되어 있으며 각 단방향 구성이 아니라 단계간 피드백을 통해 완성도 높이는 방식

4) KDD와 CRISP-DM 비교

KDD CRISP-DM
  분석대상 비즈니스 이해   업무 이해 (Business Understanding)
  데이터셋 선택 (Data Selection)   데이터의 이해 (Data Understanding)
  데이터 전처리 (Preprocessing)
  데이터 변환 (Transforamtion)   데이터 준비 (Data Preparation)
  데이터 마이닝 (Data Mining)   모델링 (Modeling)
  데이터 마이닝 결과 평가 (Interpretation/Evaluation)   평가 (Evaluation)
  데이터 마이닝 활용   전개 (Deployment)

 

2-3. 빅데이터 분석 방법론

1) 계층적 프로세스

단계   - 최상위 계층으로 프로세스 그룹을 통해 완성된 단계별 산출물 생성
  - 각 단계는 기준선으로 설정되어 관리, 버전관리 등을 통해 통제
  → 단계별 완료 보고서
태스크   - 단계를 구성하는 단위 활동(물리적/논리적 단위 품질검토 항목)   → 보고서
스탭   - WBS 워크패키지에 해당
  - 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스
  → 보고서 구성 요소

2) 분석 방법론 - 5단계

  ① 분석기획 (Planning)

  • 비즈니스 도메인과 문제점을 인식하고 분석 꼐획 및 프로젝트 수행계획 수립
  • 비즈니스 이해 및 범위 설정, 프로젝트 정의 및 계획 수립, 프로젝트 위험계획 수립

  ② 데이터 준비 (Preparing)

  • 비즈니스 요구사항과 데이터 분석에 필요한 원천데이터 정의/준비
  • 필요 데이터 정의, 데이터 스토어 설계, 데이터 수집 및 정합성 점검

  ③ 데이터 분석 (Analyzing)

  • 분석 데이터셋 편성하고 다양한 분석 기법과 알고리즘을 이용하여 데이터 분석
  • 분석 과정에서 추가적인 데이터 확보가 필요한 경우 데이터 준비단계로 피드백하여 두 단계 반복 진행
  • 분석용 데이터 준비, 텍스트 분석, 탐색적 분석, 모델링, 모델 평가 및 검증, 모델 적용 및 운영방안 수립

  ④ 시스템 구현 (Developing)

  • 분석 기획에 맞는 모델 도출 및 시스템 적용, 시스템 개발을 위한 사전 검증으로 프로토타입 시스템 구현
  • 설계 및 구현, 시스템 테스트 및 운영

  ⑤ 평가 및 전개 (Lesson Learned)

  • 데이터 분석 및 시스템 구현 단계 수행 후, 
  • 모델 발전계획 수립, 프로젝트 평가 및 보고

3. 분석 과제 발굴 방법론

1) 개요

  • 분석 과제는 다양한 문제를 데이터 분석 문제로 변환한 후 프로젝트로 수행할 수 있는 과제 정의서 형태로 도출
  • 하향식 접근 방식은 전통적 수행 방식으로 빠르게 변화하는 기업 환경에서는 문제 자체 변화가 심해 문제를 사전에 정의하는 것이 어려워지고 있음
  • 최적의 의사결정은 하향식 접근 방식과 상향식 접근 방법이 혼용되어 상호 보완 관계에 있을 때 가능

 

3-1. 하향식 접근법 ( Top Down Approach )

  • 현황 분석을 통해 기회나 문제를 탐색하고, 해당 문제를 정의, 탐색, 타당성 평가를 통해 분석 과제를 도출함

1) 문제 탐색(Problem Discovery) 단계

  • 세부적인 구현 및 솔루션보다 문제를 해결함으로써 발생하는 가치에 중점을 두는 것이 중요함
  • 비즈니스 모델 기반 과제발굴 방법
    • 업무(Operation) 
    • 제품(Product) 
    • 고객(Customer) 
    • 규제와 감사(Regulation & Audit) 
    • 지원 인프라(IT & Human Resource)
  • 분석 기회 발굴 범위 확장

STEEP

  • 외부참조 모델기반 문제탐색
    • 유사동종 사례 벤치마킹을 통한 분석기회 발굴은 산업별, 업무 서비스별 분석 테마 후보 그룹(Pool)을 통해 'Quick&Easy' 방식으로 필요한 분석기회가 무엇인지에 대한 아이디어를 얻고, 기업에 적용할 분석테마 후보 목록을 워크숍 형태의 브레인스토밍을 통해 빠르게 도출하는 방법
  • 분석 유즈 케이스(Analytics Use Case)
    • 풀어야 할 문제에 대한 상세한 설명 및 해당 문제를 해결했을 때 발생하는 효과를 명시함으로써 향후 데이터 분석 문제로의 전환 및 적합성 평가에 활용

2) 문제 정의(Problem Definition) 단계

  • 비즈니스 문제를 데이터 분석 문제로 변환
  • 분석 수행 당사자뿐만 아니라 해당 문제가 해결되었을 때 효용을 얻을 수 있는 최종사용자 관점에서 이뤄져야 함

3) 해결방안 탐색(Solution Search) 단계

4) 타당성 검토(Reasibility Study) 단계

  • 경제적 타당성 : 비용대비 편익 분석 관점의 접근
    • 비용(데이터, 시스템, 인력, 유지보수), 편익(분석 결과 실질적 적용, 추가적 매출 수익, 경제적 가치)
  • 데이터 및 기술적 타당성

 

3-2. 상향식 접근법 ( Bottom up Approach )

1) 정의

  • 다양한 원천 데이터를 대상으로 분석을 수행하여 가치있는 모든 문제를 도출하는 과정

2) 기존 하향식 접근법 한계 극복

  • 문제 해결 및 솔루션 도출에는 유효하지만 새로운 문제 탐색에는 한계가 있어 최근 복잡하고 다양한 환경에서 발생하는 문제에는 적합하지 않음
  • 디자인사고 접근법을 통해 전톡적 분석적 사고를 극복해야함 (What 관점)
    • Empathize(감정이입), Define(문제정의), Ideate(아이디어 확장), Prototype(아이디어 구현), Test(아이디어 실행)

3) 비지도학습과 지도학습

  • 비지도학습(Unsupervised Learning)
    • 일반적으로 상향식 접근방식의 데이터 분석은 비지도학습 방법에 의해 수행됨
    • 분석 목적이 명확히 정의된 형태의 특정 필드 값을 구하는 것이 아니라 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터 상태를 표현하는 것
    • 장바구니 분석, 군집 분석, 기술 통계 및 프로파일링 등
  • 지도학습(Supervised Learning)
    • 명확한 목적 하에 데이터분석을 실시하는 것으로 분류, 추측, 예측, 최적화를 통해 지식을 도출

4) 시행착오를 통한 문제 해결

  • 프로토타이핑 접근법
    • 요구사항이나 데이터를 정확히 규정하기 어렵고 데이터 소스도 명확히 파악하기 어려운 상황에서 분석을 시대해보고 결과를 확인해가면서 반복저그로 개선해 나가는 방법
    • 신속하게 해결책이나 모형을 제시함으로써, 명확하게 인식하고 필요한 데이터를 식별하여 구체화

 

4. 분석 프로젝트 관리 방안

1) 분석과제 관리 주요 영역 - 5가지

Data Size   분석하고자 하는 데이터의 양을 고려한 관리 방안 수립 필요
Data Complexity   BI 정형데이터 분석과 달리 비정형 데이터도 확보/통합, 분석모델 선정 등 사전고려 필요
Speed   시나리오 측면과 모델 성능 및 속도 고려한 개발, 테스트 수행
Analytic Complexity   분석모델의 정확도와 복잡도는 트레이드오프 관계, 해석이 가능하면서 정확도 올리는 최적모델 선정
Accuracy & Precision   정확도와 일관성, 분석 활용 측면에서는 Accuracy, 안정성 측면에서는 Precision이 중요함

Accuracy & Precision 관계

2) 분석 프로젝트 특성

  • 분석가의 목표 : 개별적인 분석업무 수행 뿐만아니라 전반적인 프로젝트 관리 또한 중요
  • 분석가의 입장 : 데이터 영역과 비즈니스 영역의 현황을 이해하고, 프로젝트의 목표인 분석의 정확도 달성과 결과에 대한 가치 이해를 전달하는 조정자로서의 분석가 역할이 중요
  • 분석 프로젝트는 도출된 결과의 재해석을 통한 지속적인 반복 및 정교화가 수행되는 경우가 대부분이므로 프로토타이핑 방식의 애자일 프로젝트 관리방식에 대한 고려도 필요

3) 분석 프로젝트 관리방안

  • 범위, 시간, 원가, 품질, 통합, 조달, 자원, 리스크, 의사소통, 이해관계자