목록자격증/ADP (6)
코딩뿌셔

1. 성과분석 1) 오분류에 대한 추정치 2) ROC Curve 가로축 : FPR(1-특이도), 세로축 : TPR(민감도) 2진 분류에서 모형의 성능을평가하기 위해 사용되는 척도 ROC 곡선 아래 면적(AUROC) 값이 크면 클수록(1에 가까울수록) 모형의 성능이 좋음 3) 이익도표(Lift chart) 분류모형 성능 평가 척도, 분류된 관측치에 대해 얼마나 예측이 잘 이뤄졌는지 나타냄 향상도(Lift) : 기본 향상도에 비해 반응률이 몇 배나 높은지 계산함 등급별로 향상도가 급격하게 변동할수록 좋은 모형 더보기 과대적합(Overfitting) : 학습용데이터를 과하게 학습하여, 학습데이터에 대해 높은 정확도를 나타내지만 테스트데이터나 다른 데이터에 적용할 때는 성능이 떨어지는 현상 과소적합(Underf..
1. 표본 추출 방법 N개의 모집단에서 n개의 표본을 추출하는 경우 단순랜덤 추출법(simple random sampling) 각 샘플에 번호를 부여하여 임의 n개를 추출하는 방법으로 선택될 확률은 동일함 (비복원, 복원 추출로 분류) 계통추출법(systematic sampling) 샘플을 나열하여 K(=N/n)개씩 n개의 구간으로 나누고 임의의 위치에서 매 k번째 항목을 추출한느 방법 집락추출법(cluster random sampling) 군집을 구분하고 군집별로 단순랜덤 추출법 수행 후, 모든 자료 활용 또는 샘플링하는 방법 층화추출법(stratified random sampling) 이질적 원소들로 구성된 모집단에서 각 계층을 대표할 수 있도록 표본을 추출하는 방법(비례층화추출, 불비례층화추출) 2..

1. 분석 마스터 플랜 수립 프레임 워크 1) 마스터 플랜 수립 우선순위 고려요소 적용범위 / 방식 고려요소 ① 전략적 중요도 적용 우선 순위 설정 ① 업무 내재화 적용 수준 Analytics 구현 로드맵 수립 ② 비즈니스 성과 / ROI ② 분석 데이터 적용 수준 ③ 실행 용이성 ③ 기술 적용 수준 2) 수행 과제 도출 및 우선순위 평가 과제 우선순위 평가기준 전략적 중요도 전략적 필요성 - 전략적 목표 및 본원적 업무에 직접적인 연관관계가 밀접한 정도 시급성 - 사용자 요구사항, 업무능률 향상을 위해 시급히 수행되어야 하는지에 대한 정도 - 향후 경쟁우위 확보를 위한 중요성 정도 실행 용이성 투자용이성 - 기간 및 인력 투입 용이성 정도, 비용 및 투자예산 확보 가능성 정도 기술용이성 - 적용 기술의..

1. 분석 기획 방향성 도출 1) 분석 기획 분석 수행 전 과제 정의 및 결과 도출 관리 방안을 사전에 계획하는 일련의 작업 어떠한 목표(what)를 달성하기 위해(why) 어떠한 데이터를 가지고 어떤 방식으로(how) 수행할 지에 대한 계획 수립 2) 데이터 사이언티스트 역량 수학/통계학적 지식(Math & Statistics) 정보IT 기술(Information Technology) 비즈니스에 대한 이해와 전문성(Domain Knowledge) 3) 분석 대상과 방법 Optimization → Solution : 하향식 접근(Top down Approach) Discovery → Insight : 상향식 접근(Bottom up Approach) 분석 방법(How) 분석 대상 (What) Known U..
1. 맵리듀스(MapReduce) 1) 개념 및 특징 구글에서 분산 병렬 컴퓨팅을 이용하여 대용량 데이터를 처리하기 위한 목적으로 제작한 소프트웨어 프레임워크 C++, 자바 등 언어로 적용 가능하며, 아파치 하둡에서 오픈 소스 프로젝트로 시작한 자바 기반의 'Hadoop MapReduce' 프레임워크가 동일한 기능 지원 클라이언트 수행 작업 단위는 맵리듀스 잡, 잡은 Map Task와 Reduce Task로 나눠서 실행 맵리듀스 작업은 특별한 옵션을 주지 않으면 Map Task 하나가 1개 블록(64MB)을 대상으로 연산 수행 1-1. 구글 MapReduce 1) 개발 배경 대용량 데이터를 처리하는 데 있어 연산의 병렬화, 쟁애 복구 등 복잡성을 추상화시켜서 개발자들이 오직 핵심 기능 구현에만 집중할 수..