앞서, 빅데이터분석기사 통계관련 필기 자료를 정리해서 업로드했는데, 이어서 통계관련 분석 개념에 대해 정리했던 내용을 포스팅해보려고 한다.
(혹시 내용 상 오류가 있는 경우 e-mail(eng.sohee@gmail.com) or 댓글 달아주시면 빠르게 정정하겠습니다.)
이전 포스팅을 보지 못한 분들은 아래 링크를 참고해서 보면 더욱 도움이 될 것이다.
⬇ 이전 포스팅 링크
목차
평가지표
교차검증
검정 방법
분석 모형 개선 방법
분석 모형 융합
01. 평가지표
1-1. 회귀모형 평가지표
평가지표 | 설명 |
SSE (오차제곱(Square)합) | 예측값과 실제값의 차이의 제곱의 합 |
SST =TSS (전체제곱합) | 평균값과 실제값의 차이의 제곱의 합 |
SSR (회귀제곱합) | 예측값과 평균값의 차이의 제곱의 합 |
AE (평균(Average)오차) | 예측값과 실제값의 차이를 n개로 나눈 것 (제곱 아님) |
MAE (평균 절대(Absolute) 오차) | AE의 절대값 |
RMSE (평균(Maen) 제곱근 오차(Root)) | SSE 를 n으로 나눠 루트를 씌운 것(SSE 평균의 제곱근) |
MAPE (평균 절대 백분율(Percentage) 오차 | MAE에 실제값에 대한 상대적 비율을 고려 |
MPE (평균백분율오차) | MAPE인데 절대값이 아닌 것 |
1-2. 회귀 모형의 결정 계수
1. 결정계수
회귀 모형이 실제값을 얼마나 잘 나타내는지 설명. 1에 가까울수록 좋음. 0<=R^2<=1
2. 수정된 결정계수
유의하지 않은 변수 개수 증가해도 결정계수는 증가한다는 단점을 보완. 유의미하지 않은 독립변수 추가하는 것에 패널티 부과. 부적절 변수 추가하면 결정계수 값 감소, 유용변수 추가하면 결정계수 값 증가. 수정된 결정계수는 결정계수보다 항상 작음(같거나 작음 아님). 독립변수 개수가 서로 다른 모형을 평가할 때 사용 가능
3. Mallow's Cp
유의하지 않은 변수 개수 증가해도 결정계수는 증가한다는 단점을 보완. 작을 수록 실제값을 잘 설명
1-3. 분류 모형의 평가지표
1-3-1. 혼동행렬 이용한 평가지표
Posi/Nega : 예측한 값 & True/False : 예측한 값과 실젯값의 비교 결과
혼동행렬을 통한 분류 모형의 평가지표
- 정확도: True/전체값
- 오차비율: False/전체값
- 민감도(=참긍정률=True Rate): 긍정예측잘한것/실제값긍정
- 특이도: 부정예측잘한것/실제값부정
- 거짓긍정률: 부정예측잘못한것/실제값부정
- 정밀도: 긍정예측잘한것/예측이모두긍정
- F1-Score: 정밀도+민감도
- 카파통계량: 1로 갈수록 예측값 일치. 두 관찰자가 측정한 범주에 대한 일치도 측정
1-3-2. ROC 곡선 이용한 평가지표
ROC곡선(R거민): 가로축 - 거짓긍정률 / 세로축 - 민감도 : 왼쪽 꼭대기로 갈수록 우수
1-3-3. 이익도표 이용한 평가지표
이익 도표 (=이익 곡선, 리프트 곡선)
02. 교차검증
교차검증이란, 모델의 일반화 오차에 대해 신뢰할 만한 추정치 산출 위한 검증 기법
2-1. 교차검증의 종류
ⓐ 홀드아웃 교차검증 : 비복원 추출로 트레이닝, 테스트 나눔
ⓑ 랜덤 서브샘플링: 표본을 무작위로 추출. 데이터 손실 방지. 특정 데이터만 학습될 가능성 있음
ⓒ K-Fold Cross Validation: 무작위로 K개 부분집합으로 나누고 하나를 Test, 나머지를 Training 으로 진행
ⓓ Leave-One-Out- Cross Validation(LOOCV): K-Fold와 동일
ⓔ Leave-p-Out-Cross VAlidation(LpOCV): p개 샘플을 테스트에 사용, 교차검증 반복으로 계산시간 늘어남
ⓕ Repeating Learning-Testing(RLT): 랜덤하게 비복원추출
ⓖ 부트스트랩: 랜덤 복원추출로 동일 크기 표본 여러개 생성, 한 번도 학습에 쓰이지 않은 샘플을 평가에 사용
03. 검정 방법
3-1. 모수유의성검정
모수유의성검정이란, 모집단의 평균에 대한 검정을 뜻한다.
모수유의성 검정의 종류
- Z검정: 정규분포. 모집단 분산 알고 있을 때
- T-검정: T분포 따를 때(정규분포의 평균을 측정할 때). 표본분산만 알고 있을 때
자유도30이상 -> 정규분포와 비슷해지는데, 이를 중심극한정리 라고 함
- 분산분석(ANOVA): 두개 이상 집단 비교, 각 집단 간 분산 비교로 얻은 F분포 활용
3-2. 모집단의 분산에 대한 검정
3-2-1. 카이제곱 검정
표준 정규 분포를 취함. 관찰된 빈도와 예측 빈도 차의 유의미성 검정. n이 클수록 오른쪽으로!
F 검정: 두 표본 분산 대한 차이가 통계적으로 유의한지 검정
3-2-2. 적합도 검정
ⓐ 가정된 확률을 검정할 경우: 카이제곱 검정
ⓑ 가정되지 않은 확률을 검정할 경우: 정규성 검정
표본 개수 2000개 이상: 콜모고로프-스미르노프 적합성 검정(인자는 x, y 등 여러 개)
표본 개수 2000개 이하: 샤피로-윌크 검정(인자는 x 한개)
04. 분석 모형 개선 방법
과대적합(일반화 오류) 방지 방법
ⓐ 데이터 증강 ⓑ 모델 복잡도 감소 ⓒ 가중치 규제 적용 ⓓ 드롭아웃(신경망 예측 시 일부 사용X)
ⓒ 가중치 규제 종류: L1(모든 가중치의 절대값 합계를 비용함수에(관측된 값-연산된 값) 추가)
L2(모든 가중치의 제곱합을 비용 함수에 추가)
매개변수(모델 내부에서 학습과정에서 결정되는 변수) 최적화 방법
개념: 손실함수: 학습모델-실제레이블. 이를 최대한 작게 만드는 매개변수를 찾아내는 것
최적화 방법 1: 확률적 경사 하강법(SGD)
ⓐ 학습률 작은 경우: 매우 느리게 학습해 최적화 시간 오래 걸림
ⓑ 학습률 높은 경우: 기울기가 0인 지점을 지나쳐 최적화 되기 어려움
ⓒ 학습률 적절한 경우: 기울기가 0인 지점 찾아서 최적화됨
최적화 방법 2: 모멘텀
개념: 기울기 방향으로 힘을 받으면 물체가 가속된다는 물리법칙 적용
공이 바닥에 구르듯 움직이며 빠르게 최적점을 수렴하고, x의 한 방향으로 일정하게 가속하나 y속도는 불일정
매개변수 종류
ⓐ 가중치: y=ax+b에서 a
ⓑ 편향: y=ax+b에서 b
최적화 방법 3: AdaGrad
개념: 크게 크게 학습하다가 최적점 가까워질 때는 속도를 늦춤
학습을 진행하며 학습률을 점차 줄여나가는 학습률 감소 기법(최적화 알고리즘)
매개변수 각각에 맞는 학습률 값을 생성
모멘텀과 비슷하나 지그재그패턴이 갈수록 없다.
최적화 방법 4: Adam
모멘텀+AdaGrad
모멘텀처럼 공이 굴러가며 AdaGrad처럼 갱신 강도가 조정됨.
따라서 모멘텀과 비슷하지만 좌우 흔들림이 적은 편
05. 분석 모형 융합
ⓐ 취합 방법:
- 다수결 배깅(중복 허용하며 학습 데이터 세트 나누는 복원 추출)
- 페이스팅(학습데이터 중복 사용하지 않고 나누는 비복원추출)
- 랜덤서브스페이스(학습데이터 모두 사용하고 특성은 샘플링, 다차원 독립변수 중 일부 차원 선택)
- 랜덤패치(학습데이터 독립변수 모두 일부차원)
- 랜덤포레스트(차원랜덤감소 후 독립변수 선택)
ⓑ 부스팅 방법:
- 에이다부스트(약한 모형 순차적 적용하며 잘못 분류된건 가중치 올려줌. Adaptive(적응))
- 그래디언트 부스트(약한 모형 순차적 적용하며 에러를 최적화)
'데이터 공부 > [자격증] 빅데이터분석기사' 카테고리의 다른 글
빅데이터분석기사 실기 단답형 대비 (0) | 2022.12.01 |
---|---|
제 45회 SQLD (국가공인 SQL 개발자 자격증) 합격 후기 (0) | 2022.07.03 |
04. 빅데이터 분석기사 필기 합격 후기 - 총정리 마무리 (0) | 2021.06.03 |
03. 빅데이터 분석기사 필기 - 3 (0) | 2021.06.02 |
01. 빅데이터 분석기사 필기 - 1 (0) | 2021.06.02 |