자격증/ADP
[3과목] 데이터 분석 기획의 이해
He__o
2022. 8. 9. 23:26
1. 분석 기획 방향성 도출
1) 분석 기획
- 분석 수행 전 과제 정의 및 결과 도출 관리 방안을 사전에 계획하는 일련의 작업
- 어떠한 목표(what)를 달성하기 위해(why) 어떠한 데이터를 가지고 어떤 방식으로(how) 수행할 지에 대한 계획 수립
2) 데이터 사이언티스트 역량
- 수학/통계학적 지식(Math & Statistics)
- 정보IT 기술(Information Technology)
- 비즈니스에 대한 이해와 전문성(Domain Knowledge)
3) 분석 대상과 방법
- Optimization → Solution : 하향식 접근(Top down Approach)
- Discovery → Insight : 상향식 접근(Bottom up Approach)
분석 방법(How) | 분석 대상 (What) | |
Known | Un-Known | |
Known | Optimization | Insight |
Un-Known | Solution | Discovery |
4) 목표 시점 별 분석 기획 방안
- 과제 중심적인 접근 방식 : 당면한 과제를 빠르게 해결 (문제해결 Problem Solving)
- 중·장기적인 마스터 플랜 방식 : 지속적인 분석 내재화 (분석과제 정의 Problem Definition)
당면한 분석 주제의 해결 (과제 단위) |
구분 | 지속적 분석 문화 내재화 (마스터 플랜 단위) |
Speed & Test | ◁ 1차 목표 ▷ | Accuracy & Deploy |
Quick & Win | ◁ 과제의 유형 ▷ | Long Term View |
Problem Solving | ◁ 접근 방식 ▷ | Problem Definition |
5) 분석 기획시 고려사항
- 가용 데이터 (Available data)
- 분석 데이터 확보가 우선적이며, 데이터 유형에 따라 적용 가능한 솔루션 및 분석 방법이 다르기 때문에 유형에 대한 분석이 선행적으로 이뤄져야 함
- 적절한 활용방안과 유즈케이스 (Proper Business Use Case)
- 기존에 잘 구현되어 활용되고 있는 유사 분석 시나리오 및 솔루션을 최대한 활용하는 것이 중요함
- 장애요소들에 대한 사전계획 수립 (Low Barrier Of Execution)
- 일회성 분석으로 그치지 않고 조직의 역량으로 내재화하기 위해서는 충분하고 계속적인 교육 및 활용방안 등 변화 관리(Change Management)가 고려되야 함
2. 분석 방법론
1) 개요
- 데이터 분석이 효과적으로 기업 내 정착하기 위해서는 체계화한 절차/방법이 정리된 데이터 분석 방법론 수립이 필수
- 프로젝트는 개인의 역량이나 조직의 우연한 성공에 기인해선 안되고, 일정 수준 품질을 갖춘 산출물과 프로젝트 성공 가능성을 확보하고 제시할 수 있어야 함
- 방법론은 상세한 절차(Procedures), 방법(Methods), 도구와 기법(Tools & Techniques), 템플릿과 산출물(Templates & Outputs)로 구성되어 어느 정도의 지식만 있으면 활용 가능해야 함
2) 데이터 기반 의사결정의 필요성
- 경험과 감보다 데이터 기반의 의사결정
- 기업의 합리적 의사결정을 가로막는 장애요소 : 고정 관념(Stereotype), 편향된 생각(Bias), 프레이밍 효과(Framing Effect)
3) 방법론 생성과정
- 암묵지 : 학습과 경험을 통해 개인에게 체화되어 있지만 겉으로 드러나지 않는 지식 (공유 어려움) - 공통화, 내면화
- 형식지 : 문서나 메뉴얼처럼 형상화된 지식 (전달/공유 용이) - 표출화, 연결화
4) 방법론 적용 업무 특성에 따른 모델
- 폭포수 모델(Waterfall Model)
- 단계를 순차적으로 진행하는 방법, 이전단계가 완료되야 다음 단계로 진행 가능
- 프로토타입 모델(Prototype Model)
- 폭포수 모델 단점 보완, 점진적으로 시스템 개발하는 접근 방식
- 고객 요구 분석의 어려움을 해결하기 위해 일부분 우선 개발하여 사용자에게 제공, 개선 작업
- 나선형 모델(Spiral Model)
- 반복을 통해 점증적으로 개발하는 방법
- 처음 시도하는 프로젝트에 적용이 용이하지만 관리 체계를 효과적으로 갖추지 못한 경우 복잡도 상승
5) 방법론 구성
단계 | - 최상위 계층으로 프로세스 그룹을 통해 완성된 단계별 산출물 생성 - 각 단계는 기준선으로 설정되어 관리, 버전관리 등을 통해 통제 |
→ 단계별 완료 보고서 |
태스크 | - 단계를 구성하는 단위 활동(물리적/논리적 단위 품질검토 항목) | → 보고서 |
스탭 | - WBS 워크패키지에 해당 - 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스 |
→ 보고서 구성 요소 |
2-1. KDD 분석 방법론 (Knowledge Discovery in Databases)
1) 개요
- 1996년 Fayyad가 프로파일링 기술을 기반으로 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스
- 데이터마이닝, 기계학습, 인공지능, 패턴인식, 데이터 시각화 등 응용될 수 있는 구조
2) 분석 절차
① 데이터셋 선택 (Selection)
- 분석대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정, 목표데이터 구성
② 데이터 전처리 (Preprocessing)
- 데이터셋의 잡음(Noise)과 이상치(Outlier), 결측치(Missing Value) 식별/제거/재처리 등 정제
③ 데이터 변환 (Transformation)
- 분석 목적에 맞게 변수 생성 및 차원 축소하여 효율적 데이터마이닝을 할 수 있도록 변경
- 학습용 데이터(training data)와 검증용 데이터(test data)로 데이터 분리
④ 데이터 마이닝(Data Mining)
- 분석 목적에 맞는 데이터마이닝 기법 선택, 적절한 알고리즘 적용하여 작업 실행
- 데이터 전처리와 데이터 변환 프로세스를 추가 실행 가능
⑤ 데이터 마이닝 결과 평가 (Interpretation/Evaluation)
- 데이터마이닝 결과 해석 및 평가, 분석 목적과의 일치성 확인
2-2. CRISP-DM 분석 방법론 (Cross Industry Standard Process for Data Mining)
1) 개요
- 1996년 유럽연합의 ESPRIT 프로젝트에서 시작됨
- 주요 5개 업체들(Daimler-Chrysler, SPSS, NCR, Teradata, OHRA)이 주도함
2) 구조 - 4레벨
- 단계 (Phases) : 최상위 레벨, 여러 개의 단계로 구성되며 각 단계는 일반화 태스크를 포함
- 일반화 태스크 (Generic Tasks) : 데이터마이닝의 단일 프로세스를 완전하게 수행하는 단위
- 세분화 태스크 (Specialized Tasks) : 일반화 태스크는 구체적인 수행 레벨인 세분화 태스크로 구성
- 프로세스 실행 (Process Instances) : 마지막 레벨, 데이터마이닝을 위한 구체적인 실행을 포함
3) 계층적 프로세스
- CRISP-DM 프로세스는 6단계로 구성되어 있으며 각 단방향 구성이 아니라 단계간 피드백을 통해 완성도 높이는 방식
4) KDD와 CRISP-DM 비교
KDD | CRISP-DM |
분석대상 비즈니스 이해 | 업무 이해 (Business Understanding) |
데이터셋 선택 (Data Selection) | 데이터의 이해 (Data Understanding) |
데이터 전처리 (Preprocessing) | |
데이터 변환 (Transforamtion) | 데이터 준비 (Data Preparation) |
데이터 마이닝 (Data Mining) | 모델링 (Modeling) |
데이터 마이닝 결과 평가 (Interpretation/Evaluation) | 평가 (Evaluation) |
데이터 마이닝 활용 | 전개 (Deployment) |
2-3. 빅데이터 분석 방법론
1) 계층적 프로세스
단계 | - 최상위 계층으로 프로세스 그룹을 통해 완성된 단계별 산출물 생성 - 각 단계는 기준선으로 설정되어 관리, 버전관리 등을 통해 통제 |
→ 단계별 완료 보고서 |
태스크 | - 단계를 구성하는 단위 활동(물리적/논리적 단위 품질검토 항목) | → 보고서 |
스탭 | - WBS 워크패키지에 해당 - 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스 |
→ 보고서 구성 요소 |
2) 분석 방법론 - 5단계
① 분석기획 (Planning)
- 비즈니스 도메인과 문제점을 인식하고 분석 꼐획 및 프로젝트 수행계획 수립
- 비즈니스 이해 및 범위 설정, 프로젝트 정의 및 계획 수립, 프로젝트 위험계획 수립
② 데이터 준비 (Preparing)
- 비즈니스 요구사항과 데이터 분석에 필요한 원천데이터 정의/준비
- 필요 데이터 정의, 데이터 스토어 설계, 데이터 수집 및 정합성 점검
③ 데이터 분석 (Analyzing)
- 분석 데이터셋 편성하고 다양한 분석 기법과 알고리즘을 이용하여 데이터 분석
- 분석 과정에서 추가적인 데이터 확보가 필요한 경우 데이터 준비단계로 피드백하여 두 단계 반복 진행
- 분석용 데이터 준비, 텍스트 분석, 탐색적 분석, 모델링, 모델 평가 및 검증, 모델 적용 및 운영방안 수립
④ 시스템 구현 (Developing)
- 분석 기획에 맞는 모델 도출 및 시스템 적용, 시스템 개발을 위한 사전 검증으로 프로토타입 시스템 구현
- 설계 및 구현, 시스템 테스트 및 운영
⑤ 평가 및 전개 (Lesson Learned)
- 데이터 분석 및 시스템 구현 단계 수행 후,
- 모델 발전계획 수립, 프로젝트 평가 및 보고
3. 분석 과제 발굴 방법론
1) 개요
- 분석 과제는 다양한 문제를 데이터 분석 문제로 변환한 후 프로젝트로 수행할 수 있는 과제 정의서 형태로 도출
- 하향식 접근 방식은 전통적 수행 방식으로 빠르게 변화하는 기업 환경에서는 문제 자체 변화가 심해 문제를 사전에 정의하는 것이 어려워지고 있음
- 최적의 의사결정은 하향식 접근 방식과 상향식 접근 방법이 혼용되어 상호 보완 관계에 있을 때 가능
3-1. 하향식 접근법 ( Top Down Approach )
- 현황 분석을 통해 기회나 문제를 탐색하고, 해당 문제를 정의, 탐색, 타당성 평가를 통해 분석 과제를 도출함
1) 문제 탐색(Problem Discovery) 단계
- 세부적인 구현 및 솔루션보다 문제를 해결함으로써 발생하는 가치에 중점을 두는 것이 중요함
- 비즈니스 모델 기반 과제발굴 방법
- 업무(Operation)
- 제품(Product)
- 고객(Customer)
- 규제와 감사(Regulation & Audit)
- 지원 인프라(IT & Human Resource)
- 분석 기회 발굴 범위 확장
- 외부참조 모델기반 문제탐색
- 유사동종 사례 벤치마킹을 통한 분석기회 발굴은 산업별, 업무 서비스별 분석 테마 후보 그룹(Pool)을 통해 'Quick&Easy' 방식으로 필요한 분석기회가 무엇인지에 대한 아이디어를 얻고, 기업에 적용할 분석테마 후보 목록을 워크숍 형태의 브레인스토밍을 통해 빠르게 도출하는 방법
- 분석 유즈 케이스(Analytics Use Case)
- 풀어야 할 문제에 대한 상세한 설명 및 해당 문제를 해결했을 때 발생하는 효과를 명시함으로써 향후 데이터 분석 문제로의 전환 및 적합성 평가에 활용
2) 문제 정의(Problem Definition) 단계
- 비즈니스 문제를 데이터 분석 문제로 변환
- 분석 수행 당사자뿐만 아니라 해당 문제가 해결되었을 때 효용을 얻을 수 있는 최종사용자 관점에서 이뤄져야 함
3) 해결방안 탐색(Solution Search) 단계
4) 타당성 검토(Reasibility Study) 단계
- 경제적 타당성 : 비용대비 편익 분석 관점의 접근
- 비용(데이터, 시스템, 인력, 유지보수), 편익(분석 결과 실질적 적용, 추가적 매출 수익, 경제적 가치)
- 데이터 및 기술적 타당성
3-2. 상향식 접근법 ( Bottom up Approach )
1) 정의
- 다양한 원천 데이터를 대상으로 분석을 수행하여 가치있는 모든 문제를 도출하는 과정
2) 기존 하향식 접근법 한계 극복
- 문제 해결 및 솔루션 도출에는 유효하지만 새로운 문제 탐색에는 한계가 있어 최근 복잡하고 다양한 환경에서 발생하는 문제에는 적합하지 않음
- 디자인사고 접근법을 통해 전톡적 분석적 사고를 극복해야함 (What 관점)
- Empathize(감정이입), Define(문제정의), Ideate(아이디어 확장), Prototype(아이디어 구현), Test(아이디어 실행)
3) 비지도학습과 지도학습
- 비지도학습(Unsupervised Learning)
- 일반적으로 상향식 접근방식의 데이터 분석은 비지도학습 방법에 의해 수행됨
- 분석 목적이 명확히 정의된 형태의 특정 필드 값을 구하는 것이 아니라 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터 상태를 표현하는 것
- 장바구니 분석, 군집 분석, 기술 통계 및 프로파일링 등
- 지도학습(Supervised Learning)
- 명확한 목적 하에 데이터분석을 실시하는 것으로 분류, 추측, 예측, 최적화를 통해 지식을 도출
4) 시행착오를 통한 문제 해결
- 프로토타이핑 접근법
- 요구사항이나 데이터를 정확히 규정하기 어렵고 데이터 소스도 명확히 파악하기 어려운 상황에서 분석을 시대해보고 결과를 확인해가면서 반복저그로 개선해 나가는 방법
- 신속하게 해결책이나 모형을 제시함으로써, 명확하게 인식하고 필요한 데이터를 식별하여 구체화
4. 분석 프로젝트 관리 방안
1) 분석과제 관리 주요 영역 - 5가지
Data Size | 분석하고자 하는 데이터의 양을 고려한 관리 방안 수립 필요 |
Data Complexity | BI 정형데이터 분석과 달리 비정형 데이터도 확보/통합, 분석모델 선정 등 사전고려 필요 |
Speed | 시나리오 측면과 모델 성능 및 속도 고려한 개발, 테스트 수행 |
Analytic Complexity | 분석모델의 정확도와 복잡도는 트레이드오프 관계, 해석이 가능하면서 정확도 올리는 최적모델 선정 |
Accuracy & Precision | 정확도와 일관성, 분석 활용 측면에서는 Accuracy, 안정성 측면에서는 Precision이 중요함 |
2) 분석 프로젝트 특성
- 분석가의 목표 : 개별적인 분석업무 수행 뿐만아니라 전반적인 프로젝트 관리 또한 중요
- 분석가의 입장 : 데이터 영역과 비즈니스 영역의 현황을 이해하고, 프로젝트의 목표인 분석의 정확도 달성과 결과에 대한 가치 이해를 전달하는 조정자로서의 분석가 역할이 중요
- 분석 프로젝트는 도출된 결과의 재해석을 통한 지속적인 반복 및 정교화가 수행되는 경우가 대부분이므로 프로토타이핑 방식의 애자일 프로젝트 관리방식에 대한 고려도 필요
3) 분석 프로젝트 관리방안
- 범위, 시간, 원가, 품질, 통합, 조달, 자원, 리스크, 의사소통, 이해관계자