코딩뿌셔
[4과목] 정형 데이터 마이닝 본문
1. 성과분석
1) 오분류에 대한 추정치
2) ROC Curve
- 가로축 : FPR(1-특이도), 세로축 : TPR(민감도)
- 2진 분류에서 모형의 성능을평가하기 위해 사용되는 척도
- ROC 곡선 아래 면적(AUROC) 값이 크면 클수록(1에 가까울수록) 모형의 성능이 좋음
3) 이익도표(Lift chart)
- 분류모형 성능 평가 척도, 분류된 관측치에 대해 얼마나 예측이 잘 이뤄졌는지 나타냄
- 향상도(Lift) : 기본 향상도에 비해 반응률이 몇 배나 높은지 계산함
- 등급별로 향상도가 급격하게 변동할수록 좋은 모형
더보기
과대적합(Overfitting) : 학습용데이터를 과하게 학습하여, 학습데이터에 대해 높은 정확도를 나타내지만 테스트데이터나 다른 데이터에 적용할 때는 성능이 떨어지는 현상
과소적합(Underfitting) : 모형이 너무 단순하여 데이터 속에 내제되어 있는 패턴이나 규칙을 제대로 학습하지 못하는 경우
일반화(generalization) : 데이터의 특징은 잘 설명하면서도 지나치게 학습하지 않았기 때문에 새로운 데이터를 입력했을 때도 좋은 성능을 나타낼 수 있음
2. 머신러닝
지도학습 | 비지도학습 |
- k-최근접 이웃 알고리즘 - 선형회귀 - 로지스틱 회귀 - 서포트 벡터 머신 - 의사결정나무 - 랜덤포레스트 - 신경망 |
- k-평균 군집분석 - 계층 군집 분석 - 주성분 분석 - 연관규칙분석 - 사회연결망 분석 - 텍스트마이닝 |
3. 딥러닝
DNN (심층 신경망) |
인공신경망(ANN)은 인력층/은닉층/출력층 구조, 심층 신경망(DNN)은 입력층과 출력층 사이 여러개의 은닉층으로 이루어진 인공신경망 구조 - 암 진단 시스템 구축, 주가지수예측, 기업신용평가, 환율예층 등 |
CNN (합성곱 신경망) |
다계층 퍼셉트론의 한 종류로 여러개의 합성곱 계층과 일반적 인공신경망 계층으로 이뤄짐 영상 분류나 이미지 객체 인식, 패턴 감지 등 비전 분야에서 많이 활용 - 자율 주행 자동차, 이미지, 텍스트, 사운드, 비디오 인식/식별, 그림 인식 등 |
RNN (순환 신경망) |
시간의 흐름에 따라 변화하는 데이터를 학습하기 위한 딥러닝 알고리즘 기준 시점과 다음 시점에 네트워크를 연결하여 구성 - 음성 인식, 자동 번역, 단어 의미 판단, 이미지 캡션 생성 등 자연어 처리 분야 등 |
1) 프로그래밍 언어별 딥러닝 지원 라이브러리
Python | Theano ( Keras, Lasagne ), Chainer, Tensorflow, CXXNET |
C++ | Caffe, Mxnet |
Java | DL4j : Java와 Scala로 작성된 오픈소스 분산처리 딥러닝 라이브러리 |
R | darch, deepnet |
4. 앙상블(Ensemble)
1) 앙상블 기법 종류
- 배깅 :
'자격증 > ADP' 카테고리의 다른 글
[4과목] 통계분석 (0) | 2022.08.14 |
---|---|
[3과목] 분석 마스터 플랜 (0) | 2022.08.11 |
[3과목] 데이터 분석 기획의 이해 (0) | 2022.08.09 |
[2과목] 분산 컴퓨팅/클라우드 인프라 기술 (0) | 2022.08.09 |
[2과목] 분산 데이터 저장 기술 (0) | 2022.08.08 |
Comments