데이터 공부/[자격증] 빅데이터분석기사

02. 빅데이터 분석기사 필기 - 2

한소희DE 2021. 6. 2. 20:30

앞서, 빅데이터분석기사 통계관련 필기 자료를 정리해서 업로드했는데, 이어서 통계관련 분석 개념에 대해 정리했던 내용을 포스팅해보려고 한다.

(혹시 내용 상 오류가 있는 경우 e-mail(eng.sohee@gmail.com) or 댓글 달아주시면 빠르게 정정하겠습니다.)

이전 포스팅을 보지 못한 분들은 아래 링크를 참고해서 보면 더욱 도움이 될 것이다.

 

 

⬇ 이전 포스팅 링크

 

01. 빅데이터 분석기사 필기 - 1 / 빅분기 취득을 결심한 이유

나는 빅데이터분석기사를 작년 12월 1차 시험 신청을 했지만, 코로나바이러스로 인해 1차 시험이 취소되었다. 그래서 어쩔 수 없이 2차 시험을 준비해야만 했다. 따라서 올해 4월, 빅데이터분석기

eng-sohee.tistory.com

 

 

 

 

목차

평가지표

교차검증

검정 방법

분석 모형 개선 방법

분석 모형 융합

 


 

01. 평가지표

1-1. 회귀모형 평가지표

평가지표 설명
SSE (오차제곱(Square)합) 예측값과 실제값의 차이의 제곱의 합
SST =TSS (전체제곱합) 평균값과 실제값의 차이의 제곱의 합
SSR (회귀제곱합) 예측값과 평균값의 차이의 제곱의 합
AE (평균(Average)오차) 예측값과 실제값의 차이를 n개로 나눈 것 (제곱 아님)
MAE (평균 절대(Absolute) 오차) AE의 절대값
RMSE (평균(Maen) 제곱근 오차(Root)) SSE 를 n으로 나눠 루트를 씌운 것(SSE 평균의 제곱근)
MAPE (평균 절대 백분율(Percentage) 오차 MAE에 실제값에 대한 상대적 비율을 고려
MPE (평균백분율오차) MAPE인데 절대값이 아닌 것

 

1-2. 회귀 모형의 결정 계수

1. 결정계수

회귀 모형이 실제값을 얼마나 잘 나타내는지 설명. 1에 가까울수록 좋음. 0<=R^2<=1

 

2. 수정된 결정계수

유의하지 않은 변수 개수 증가해도 결정계수는 증가한다는 단점을 보완. 유의미하지 않은 독립변수 추가하는 것에 패널티 부과. 부적절 변수 추가하면 결정계수 값 감소, 유용변수 추가하면 결정계수 값 증가. 수정된 결정계수는 결정계수보다 항상 작음(같거나 작음 아님). 독립변수 개수가 서로 다른 모형을 평가할 때 사용 가능

 

3. Mallow's Cp

유의하지 않은 변수 개수 증가해도 결정계수는 증가한다는 단점을 보완. 작을 수록 실제값을 잘 설명

 

 

1-3. 분류 모형의 평가지표

 

1-3-1. 혼동행렬 이용한 평가지표

Posi/Nega : 예측한 값 & True/False : 예측한 값과 실젯값의 비교 결과

 

혼동행렬을 통한 분류 모형의 평가지표

  • 정확도: True/전체값
  • 오차비율: False/전체값
  • 민감도(=참긍정률=True Rate): 긍정예측잘한것/실제값긍정
  • 특이도: 부정예측잘한것/실제값부정
  • 거짓긍정률: 부정예측잘못한것/실제값부정
  • 정밀도: 긍정예측잘한것/예측이모두긍정
  • F1-Score: 정밀도+민감도
  • 카파통계량: 1로 갈수록 예측값 일치. 두 관찰자가 측정한 범주에 대한 일치도 측정 

1-3-2. ROC 곡선 이용한 평가지표

ROC곡선(R거민): 가로축 - 거짓긍정률 / 세로축 - 민감도 : 왼쪽 꼭대기로 갈수록 우수

 

1-3-3. 이익도표 이용한 평가지표

이익 도표 (=이익 곡선, 리프트 곡선)

 

 


 

02. 교차검증

교차검증이란, 모델의 일반화 오차에 대해 신뢰할 만한 추정치 산출 위한 검증 기법

 

 

2-1. 교차검증의 종류

ⓐ 홀드아웃 교차검증 : 비복원 추출로 트레이닝, 테스트 나눔

ⓑ 랜덤 서브샘플링: 표본을 무작위로 추출. 데이터 손실 방지. 특정 데이터만 학습될 가능성 있음

ⓒ K-Fold Cross Validation: 무작위로 K개 부분집합으로 나누고 하나를 Test, 나머지를 Training 으로 진행

ⓓ Leave-One-Out- Cross Validation(LOOCV): K-Fold와 동일

ⓔ Leave-p-Out-Cross VAlidation(LpOCV): p개 샘플을 테스트에 사용, 교차검증 반복으로 계산시간 늘어남

ⓕ Repeating Learning-Testing(RLT): 랜덤하게 비복원추출

ⓖ 부트스트랩: 랜덤 복원추출로 동일 크기 표본 여러개 생성, 한 번도 학습에 쓰이지 않은 샘플을 평가에 사용

 


 

03. 검정 방법

 

3-1. 모수유의성검정

모수유의성검정이란, 모집단의 평균에 대한 검정을 뜻한다.

 

모수유의성 검정의 종류

  • Z검정: 정규분포. 모집단 분산 알고 있을 때
  • T-검정: T분포 따를 때(정규분포의 평균을 측정할 때). 표본분산만 알고 있을 때

          자유도30이상 -> 정규분포와 비슷해지는데, 이를 중심극한정리 라고 함

  • 분산분석(ANOVA): 두개 이상 집단 비교, 각 집단 간 분산 비교로 얻은 F분포 활용

 

 

3-2. 모집단의 분산에 대한 검정

 

3-2-1. 카이제곱 검정

표준 정규 분포를 취함. 관찰된 빈도와 예측 빈도 차의 유의미성 검정. n이 클수록 오른쪽으로!

F 검정: 두 표본 분산 대한 차이가 통계적으로 유의한지 검정

 

3-2-2. 적합도 검정

ⓐ 가정된 확률을 검정할 경우: 카이제곱 검정

ⓑ 가정되지 않은 확률을 검정할 경우: 정규성 검정

                     표본 개수 2000개 이상: 콜모고로프-스미르노프 적합성 검정(인자는 x, y 등 여러 개)

                     표본 개수 2000개 이하: 샤피로-윌크 검정(인자는 x 한개)

 


 

04. 분석 모형 개선 방법

과대적합(일반화 오류) 방지 방법

ⓐ 데이터 증강   ⓑ 모델 복잡도 감소   ⓒ 가중치 규제 적용   ⓓ 드롭아웃(신경망 예측 시 일부 사용X)

ⓒ 가중치 규제 종류: L1(모든 가중치의 절대값 합계를 비용함수에(관측된 값-연산된 값) 추가)

L2(모든 가중치의 제곱합을 비용 함수에 추가)

 

 

매개변수(모델 내부에서 학습과정에서 결정되는 변수) 최적화 방법

개념: 손실함수: 학습모델-실제레이블. 이를 최대한 작게 만드는 매개변수를 찾아내는 것

 

최적화 방법 1: 확률적 경사 하강법(SGD)

ⓐ 학습률 작은 경우: 매우 느리게 학습해 최적화 시간 오래 걸림

ⓑ 학습률 높은 경우: 기울기가 0인 지점을 지나쳐 최적화 되기 어려움

ⓒ 학습률 적절한 경우: 기울기가 0인 지점 찾아서 최적화됨

 

최적화 방법 2: 모멘텀

개념: 기울기 방향으로 힘을 받으면 물체가 가속된다는 물리법칙 적용

공이 바닥에 구르듯 움직이며 빠르게 최적점을 수렴하고, x의 한 방향으로 일정하게 가속하나 y속도는 불일정

매개변수 종류

ⓐ 가중치: y=ax+b에서 a

ⓑ 편향: y=ax+b에서 b

 

최적화 방법 3: AdaGrad

개념: 크게 크게 학습하다가 최적점 가까워질 때는 속도를 늦춤

학습을 진행하며 학습률을 점차 줄여나가는 학습률 감소 기법(최적화 알고리즘)

매개변수 각각에 맞는 학습률 값을 생성

모멘텀과 비슷하나 지그재그패턴이 갈수록 없다.

 

최적화 방법 4: Adam

모멘텀+AdaGrad

모멘텀처럼 공이 굴러가며 AdaGrad처럼 갱신 강도가 조정됨.

따라서 모멘텀과 비슷하지만 좌우 흔들림이 적은 편

 

 


 

05. 분석 모형 융합

취합 방법:

  • 다수결 배깅(중복 허용하며 학습 데이터 세트 나누는 복원 추출)
  • 페이스팅(학습데이터 중복 사용하지 않고 나누는 비복원추출)
  • 랜덤서브스페이스(학습데이터 모두 사용하고 특성은 샘플링, 다차원 독립변수 중 일부 차원 선택)
  • 랜덤패치(학습데이터 독립변수 모두 일부차원)
  • 랜덤포레스트(차원랜덤감소 후 독립변수 선택)

 

부스팅 방법:

  • 에이다부스트(약한 모형 순차적 적용하며 잘못 분류된건 가중치 올려줌. Adaptive(적응))
  • 그래디언트 부스트(약한 모형 순차적 적용하며 에러를 최적화)