코딩뿌셔

[4과목] 정형 데이터 마이닝 본문

자격증/ADP

[4과목] 정형 데이터 마이닝

He__o 2022. 8. 14. 18:35

1. 성과분석

1) 오분류에 대한 추정치

2) ROC Curve

  • 가로축 : FPR(1-특이도),   세로축 : TPR(민감도) 
  • 2진 분류에서 모형의 성능을평가하기 위해 사용되는 척도
  • ROC 곡선 아래 면적(AUROC) 값이 크면 클수록(1에 가까울수록) 모형의 성능이 좋음

3) 이익도표(Lift chart)

  • 분류모형 성능 평가 척도, 분류된 관측치에 대해 얼마나 예측이 잘 이뤄졌는지 나타냄
  • 향상도(Lift) : 기본 향상도에 비해 반응률이 몇 배나 높은지 계산함
  • 등급별로 향상도가 급격하게 변동할수록 좋은 모형
더보기

과대적합(Overfitting) : 학습용데이터를 과하게 학습하여, 학습데이터에 대해 높은 정확도를 나타내지만 테스트데이터나 다른 데이터에 적용할 때는 성능이 떨어지는 현상

 

과소적합(Underfitting) : 모형이 너무 단순하여 데이터 속에 내제되어 있는 패턴이나 규칙을 제대로 학습하지 못하는 경우

 

일반화(generalization) : 데이터의 특징은 잘 설명하면서도 지나치게 학습하지 않았기 때문에 새로운 데이터를 입력했을 때도 좋은 성능을 나타낼 수 있음

 

2. 머신러닝

지도학습 비지도학습
  - k-최근접 이웃 알고리즘
  - 선형회귀
  - 로지스틱 회귀
  - 서포트 벡터 머신
  - 의사결정나무
  - 랜덤포레스트
  - 신경망
  - k-평균 군집분석
  - 계층 군집 분석
  - 주성분 분석
  - 연관규칙분석
  - 사회연결망 분석
  - 텍스트마이닝

 

3. 딥러닝

DNN
(심층 신경망)
  인공신경망(ANN)은 인력층/은닉층/출력층 구조,
  심층 신경망(DNN)은 입력층과 출력층 사이 여러개의 은닉층으로 이루어진 인공신경망 구조
  - 암 진단 시스템 구축, 주가지수예측, 기업신용평가, 환율예층 등
CNN
(합성곱 신경망)
  다계층 퍼셉트론의 한 종류로 여러개의 합성곱 계층과 일반적 인공신경망 계층으로 이뤄짐
  영상 분류나 이미지 객체 인식, 패턴 감지 등 비전 분야에서 많이 활용
  - 자율 주행 자동차, 이미지, 텍스트, 사운드, 비디오 인식/식별, 그림 인식 등
RNN
(순환 신경망)
  시간의 흐름에 따라 변화하는 데이터를 학습하기 위한 딥러닝 알고리즘
  기준 시점과 다음 시점에 네트워크를 연결하여 구성
  - 음성 인식, 자동 번역, 단어 의미 판단, 이미지 캡션 생성 등 자연어 처리 분야 등

 

1) 프로그래밍 언어별 딥러닝 지원 라이브러리

Python   Theano ( Keras, Lasagne ), Chainer, Tensorflow, CXXNET
C++   Caffe, Mxnet
Java   DL4j : Java와 Scala로 작성된 오픈소스 분산처리 딥러닝 라이브러리
R   darch, deepnet

 

4. 앙상블(Ensemble)

1) 앙상블 기법 종류

  • 배깅 : 
Comments