[2과목] 데이터 분석 기획
1. 분석 기획 방향성 도출
▶ 분석 주제 유형
분석 주제 유형 | 분석 대상 (What) | ||
know | un-know | ||
분석 방법 (How) | know | 최적화 (Optimization) | 통찰 (Insight) |
un-know | 솔루션 (Solution) | 발견 (Discovery) |
▶ 목표 시점별 분석 기획 방안
당면한 분석주제의 해결
( 과제단위 )
|
지속적 분석 문화 내재화
( 마스터플랜 단위 )
|
|
Speed & Test | 1차 목표 | Accuracy & Deploy |
Quick - win | 과제 유형 | Long Term View |
Problem Solving | 접근방식 | Problem Definition |
▶ 분석 기획 시 고려사항
▷ 가용 데이터
데이터 저장방식 | ||
RDB | NoSQL | 분산파일시스템(DFS) |
▷ 적절한 유스케이스 탐색 ( Proper use-case ) : 유사 분석 시나리오 및 솔루션 활용
▷ 장애 요소들에 대한 사전 계획 수립이 필요 ( Low Barrier of execution )
2. 분석방법론
▶ 기업의 합리적 의사결정 장애요소
① 고정관념
② 편향된 생각 ( Bias )
③ 프레이밍 효과 (Framing effect ) : 문제의 표현 방식에 따라 동일 사건·상황임에도 불구하고 개인의 판단이나 선택이 달라질 수 있는 현상
▶ 적용 업무 특성에 따른 모델
폭포수 모델 | 단계 순차적 진행을 하며 문제 발견 시 전 단계로 피드백 과정 수행 |
프로토타입 모델 | 점진적으로 시스템을 개발해가는 접근방식 ( 폭포수 모델 단점 보완 ), 우선개발을 통한 평가로 개선작업 시행 |
나선형 모델 | 반복을 통해 점증적 개발, 처음 시도하는 프로젝트에 적용이 용이하지만 반복에 대한 관리체계가 효과적이지 않으면 복잡도가 커져 어려움 |
▶ 방법론 구성
단계 ( Phase ) | 최상위 계층, 프로세스 그룹을 통한 산출물 | ⇒ 단계별 완료 보고서 |
태스크 ( Task ) | 단계를 구성하는 단위 | ⇒ 보고서 |
스탭 ( Step ) | WBS, input, output, 처리 및 도구 | ⇒ 보고서 구성 요소 |
▶ 방법론
▷ KDD 분석 방법론
: 통계적 패턴이나 지식 탐색을 하는 기계학습, 데이터마이닝, 인공지능, 시각화 등에서 응용될 수 있는 구조
① 분석대상 비즈니스 이해
② 데이터셋 선택 : target data 구성
③ 데이터 전처리 : 잡음, 이상값, 결측치 식별 후 필요시 제거 (정제)
④ 데이터 변환 : 변수 선택, 데이터 차원 축소
⑤ 데이터 마이닝 : 기법/알고리즘 선택, 데이터마이닝 작업 시행
⑥ 결과 평가 및 활용
▷ CRISP-DM 분석 방법론 (계층적 프로세스 모델)
① 업무이해 : 문제 정의, 프로젝트 계획 수립
② 데이터 이해 : 인사이트 발견, 데이터 수집/탐색/분석, 품질확인
③ 데이터 준비 : 분석 데이터셋 선택, 데이터 정제, 통합, 포맷팅
④ 모델링 : 모델 과적합 등의 문제를 발견하고 대응 방안 마련
* Overfitting : 너무 열심히 학습을 해서 불필요한 것까지 배우는 현상
⑤ 평가
⑥ 전개
▶ 빅데이터 분석 방법론
① 분석 기획 : 비즈니스 이해 및 범위 설정, 프로젝트 정의 및 계획 수립, 프로젝트 위험 계획 수립
* 위험 대응계획 수립 : 회피, 전이, 완화, 수용으로 구분하여 계획
② 데이터 준비 : 필요 데이터 정의, 데이터 수집 및 적합성 점검
③ 데이터 분석 : 분석용 데이터 준비, 탐색적 분석, 모델링
④ 시스템 구현
⑤ 평가 및 전개
3. 분석 과제 발굴
▶ 분석 과제 발굴 방법론
▷ 하향식 접근 방식 ( Top Down approach )
① 문제 탐색
- 비즈니스 모델 기반 문제 탐색 영역: 업무, 제품, 고객, 규제와 감사, 지원 인프라
- 분석 기회 발굴의 범위 확장 : 거시적 관점(STEEP), 시장니즈 탐색(고객, 채널, 영향자들), 경쟁자확대(대체제, 경쟁자, 신규진입자)
* STEEP : Social(사회), Technological(기술), Economic(경제), Environmental(환경), Political(정치)
② 문제정의
③ 해결방안탐색
④ 타당성검토
▷ 상향식 접근 방식 ( Bottom Up approach )
- 문제 정의 자체가 어려운 경우 데이터 기반으로 문제 재정의/해결방안 탐색하고 지속적으로 개선하는 방식
- 비지도 학습방법에 의해 분석 수행
- 왜 그런일이 발생하는지 역 추척하면서 문제 재정의 가능
⇒ 두 접근 방법의 반복적으로 혼용되는 경우 디자인 사고 프로세스라고 할 수 있음
* 디자인 사고 5단계 : 공감 - 정의 - 아이디어화 - 프로토타입 -검증
* 지도/비지도 학습의 차이는 target 유무
4. 분석 프로젝트 관리 방안
▶ 분석 과제 주요 특성 관리 영역
▷ Data Size
▷ Data complexity
▷ Speed
▷ Analytic complexity : 분석 모델이 복잡할수록 정확도는 올라가지만 해석이 어려워지므로 기준점 사전 정의 중요
▷ Accuracy & Precision : 모델과 실제값 사이의 차이가 적은 정확도와 모델을 지속적 반복했을 때의 편차수준인 precision은 trade off의 경우가 많으므로 사전 고려해야 함 ( accuracy-활용적 측면, precision-안정적 측면에서 중요 )
▶ 분석 프로젝트의 특성
▷ 분석 프로젝트는 도출된 결과의 재해석을 통한 지속적 반복 및 정교화가 수행되는 경우가 대부분이므로 프로토타이핑 방식의 애자일 프로젝트 관리방식에 대한 고려가 필요함
- Agile 모델 : 일정 주기를 가지고 끊임없이 프로토타입을 만들며 필요할 때마다 수정하여 커다란 소프트웨어 개발해가는 방식