데이터 공부/[자격증] 빅데이터분석기사

01. 빅데이터 분석기사 필기 - 1

한소희DE 2021. 6. 2. 19:45

나는 빅데이터분석기사를 작년 12월 1차 시험 신청을 했지만, 코로나바이러스로 인해 1차 시험이 취소되었다. 그래서 어쩔 수 없이 2차 시험을 준비해야만 했다. 

따라서 올해 4월, 빅데이터분석기사 2차 필기 시험을 치뤘고, 합격했다.

 

🔥 데이터 엔지니어를 희망하는데, 빅데이터 분석기사를 취득한 이유?

연관부서와의 원활한 커뮤니케이션을 위해서라고 할 수 있다.

데이터 엔지니어는, 데이터 사이언스팀과의 협업이 필요할 수 있다고 한다. 이때 그분들이 원하는 데이터를 수집하여 원활한 소통으르 통해 분석을 지원할 수 있으려면, 데이터 사이언스팀이 취급하는 데이터와 프로젝트 산출물&산출 과정에 대한 대략적 이해가 필요할 수 있겠다는 생각이 들었다.

실제로, 작년 학부생 시절 회사를 경험했을 때도 데이터 분석가분들께서 원하는 데이터를 제공하기 위해 통계를 조금 공부했었다. 예를 들자면, 분석의 공수를 줄이기 위해 데이터 타입을 어떻게 제공하면 좋겠는지 & 어떤 모델을 활용해 어떤 산출물을 만들고 싶은지 소통하기 위해서는 간단한 통계/분석 지식이 필요했다. 

따라서, 전공수업에서 공학통계를 수강했어서 어느 정도 분석가와 소통이 가능했던지라 내가 그들의 연결다리 역할이 되어주었고, 이는 자연스럽게 내가 데이터를 제공하는 담당이 되는 루트가 된 경험이 있었다.

이런 일이 실제 내가 가게 될 직장에서 발생하지 않으리라는 법은 없다고 판단, 빅데이터 분석기사 시험을 치뤄야겠다는 생각이 들었다. 

 

빅데이터 분석기사 필기 시험을 준비할 때, 적어놓았던 요약자료를 포스팅해보려한다.

(혹시라도 오류가 있는 경우 eng.sohee@gmail.com or 댓글을 달아주시면 빠르게 정정하겠습니다.)

 

 

 

 

 

 

 

 

목차

회귀분석

의사결정나무

인공신경망

서포트벡터머신

연관성 분석

군집분석

분할표 분석

교차분석

다변량 분석

시계열 분석

베이지안 기법

딥러닝 분석

비정형 데이터 분석

앙상블 분석

비모수 통계

 


 

01. 회귀분석

선형성 독립성 등분산성 비상관성 정상성(잔차항이 정규분포 이뤄야 함)을 만족해야 한다.

 

1) 단순선형회귀분석

   회귀계수(기울기) : 최소제곱법 사용

2) 다중선형회귀분석

   통계적 유의성 : F통계량의 p값이 0.05보다 작으면 유의미하다고 판단

   다중공선성 검정 필요 : 설명변수 사이 선형관계 존재하면 추정이 난해 -> 주성분회귀, 능형회귀 사용

   ※ 주성분회귀: 주성분만 추출해 회귀모델 생성

   ※ 능형회귀: 최소제곱합 최소로 하는 회귀계수를 추정해서, 분산을 줄임

 

3) 로지스틱회귀분석 = 사후확률


 

02. 의사결정나무

2-1. 구성요소

뿌리마디 / 자식마디 / 부모마디 / 끝마디 / 중간마디(부모자식 둘다 존재) / 가지 / 깊이 

 

 

2-2. 나무 분리 기준

   이산형 목표변수: 카이제곱p값 지니(클수록 순수도 낮음) 엔트로피(클수록 순수도 낮음)

   연속형 목표변수: 분산분석F통계 분산감소량

 

 

2-3. 의사결정나무 알고리즘

1. CART : 독립변수를 계속 이분화하며 이진트리로 나누는 것. 가장 많이 쓰임

2. C4.5 & C5.0 : 가지치기 학습자료. 다지분리. 

3. CHAID : AID 발전 알고리즘. 입력변수가 반드시 범주형. 다지분리. 카이제곱으로 불순도 검증

4. QUEST : 범주 개수 많은 변수로 편향이 심각한 CART 단점 보완. 카이제곱으로 불순도 검증

 

 

2-4. 활용방법

교호작용(독립변수 간 상호작용이 종속변수에 영향 주는 현상) 효과 파악할 때 사용

 

2-5. 의사결정나무의 장점

해석용이  상호해석가능(교호 등)  비모수모형(선형 정규 등분산같은 가정 필요 없음)  유연성  정확도

 

2-6. 의사결정나무의 단점

비연속성  선형&주효과결여  비안정성

 

 


 

03. 인공신경망

  • 1세대 : 퍼셉트론(입력-출력구성. 활성함수/예측값 존재)으로 순방향신경망(입력>은닉>출력) 제안. XOR 선형 분리 불가 문제
  • 2세대 : 다층 퍼셉트론(은닉층O. 활성함수로 시그모이드 함수 사용) & 역전파 알고리즘(역방향 가중치 갱신으로 오차 최소화) 등장
  • 3세대 : 딥러닝 활용   기울기 소실 및 과적합 해결

 


 

04. 서포트벡터머신(SVM)

초평면에서 가장 먼 초평면을 선택해서 분리하는 지도학습 이진선형 분류모델

  • 하드마진 SVM : 오분류 허용안해서 노이즈에 취약
  • 소프트마진 SVM : 어느정도 오류 허용해서 주로 많이 쓰임

 

4-1. 구성요소

결정경계(데이터분류기준) 초평면(n차원공간의 n-1차원평면) 마진(결정경계에서 서포트벡터까지의 거리) 서포트벡터(결정경계와 가장 가까이있는 데이터집합) 슬랙변수(오차있을때 쓰는것)

 


 

05. 연관성분석(=장바구니 분석, 서열분석)

지지도(Support) : AB교집합/전체거래수

신뢰도(Confidence) : AB교집합/A포함거래수 (A: 이미 완료된 조건)

향상도(Lift) : AB교집합/A확률*B확률

 


 

06. 군집분석

6-1. 거리측정방법

최단연결법 최장연결법 중심연결법 평균연결법(계산 불필요하게 多) 와드연결법(군집내 오차제곱합 이용)

 

  • 수학적 거리 : 유클리드 맨하튼 민코프스키
  • 통계적 거리 : 표준화 마할라노비스
  • 명목형 거리 : 단순일치 자카드계수

 

6-2. 군집분석 대표모델 - 자기조직화지도(SOM)

  • 입력층 : 입력 벡터를 받는 층, 입력 변수 개수=뉴런 수. 입력층 자료는 학습 통해 경쟁층으로 완전 연결되어 정렬(Map)
  • 경쟁층 : 그리드로 구성된 층. 뉴런과 입력벡터 가운게 승자. 승자만 나타남

※ BMU란 : 베스트매칭유닛. 입력층과 제일 가까운 뉴런

 

 

6-3. 범주형 자료분석 방법

독립변수 종속변수 분석방법
범주형 범주형 분할표분석
교차분석(카이제곱)
피셔 정확검정
수치형 범주형 로지스틱회귀

 


 

07. 분할표 분석 (일원분할, 이원분할 등)

  • 상대위험도(RR)

관심집단 위험률/비교집단 위험률

RR>1 관심집단 특정사건 발생확률 높음 RR<1 낮음 RR=1 연관성 없음

 

  • 승산(Odds)

특정사건 발생할 확률/특정사건 발생안할 확률

 

 

08. 교차분석(카이제곱 검정)

8-1. 교차분석 계산식

편차의 제곱값 / 기대빈도

 

 

적합도검정: 표본 집단의 분포가 주어진 특정 이론을 따르고 있는지 검정하는 방법. 이들은 서로 상호 배타적이어야 함.

  • 적합도 검정 방법: 가설 설정, 카이제곱값 구하기, 유의성 검정(P값이 0.05보다 낮으면 귀무 기각)

독립성검정: 서로 연관성 있는지 검정하는 방법. 검정방법은 적합도검정값과 동일

동질성검정: 서로 동질한가를 검정(EX:남학생과 여학생이 선호하는 과목이 동일한가)

피셔의 정확검정: 셀에 치우치게 분포되어 있을 경우 피셔검정 실시

 


 

09. 다변량 분석

9-1. 다변량 분석의 종류

(피스다주) 피어슨의 상관계수 / 스피어만의 상관계수 / 다차원척도법 / 주성분 분석 

 

ⓐ 피어슨의 상관계수 : 등간척도,비례척도에서 두 변수의 공분산(변하는 정도)/표준편차의 곱

ⓑ 스피어만의 상관계수 : 비선형적 관계 나타낼 수 있음

ⓒ 다차원 척도법 : 2차원 3차원을 점으로 표현해서 시각적으로 유사성 비유사성 집단을 보여주는 것

    유클리드 거리 행렬 이용, 스트레스 값으로 적합도 측정(0일수록 완벽하며 1일수록 나쁘다) (RR과 반대)

ⓓ 주성분 분석: 상관관계 있는 고차원 데이터를 저차원으로 내리는 것

 


 

10. 시계열 분석

10-1. 정상성

정상성이란, 시점에 상관없이 시계열의 특성이 일정한 성질

 

시계열 분석은 정상성을 만족해야 하며, 정상성을 만족하는 조건은 아래와 같다.

 평균 일정 ⓑ 분산이 시점에 의존X ⓒ 공분산은 시차에 의존(시점X)

 

 

10-2. 시계열의 구성 요소

추세 요인 / 계절 요인 / 순환 요인(알려지지 않은 주기로 자료 변화) / 불규칙 요인(오차에 해당)

 

 

10-3. 시계열 모형종류

  • 자기회귀모형(AR): 현시점자료가 n 시점 전 과거자료로 설명 가능한가 (n 시점의 자료에만 영향 줄 경우 AR(n))
  • 이동평균모형(MA): 시간 지날수록 평균값이 지속적으로 증가 or 감소 / 백색잡음 / 정상성 가정 필요 없음
  • 자기회귀누적이동평균모형(ARIMA): 예측 및 리뷰로 트렌드 반영, 비정상 모형 (차분,변환이용해 AR MA ARMA 와 같은 정상 모형 가능)

 

ARIMA(p,d,q,) 차수란?

p: AR모형과 관련 / d: ARMA로 정상화 할때 차분 횟수 / q: MA와 관련
p=0 : IMA(d,q) 모형
d번 차분하면 MA(q)모형
d=0 : ARMA(p,q)모형, 정상성 만족
q=0 : ARIM(p,d) 모형, d번 차분하면 AR(p)모형

 

 


 

 

11. 베이지안 기법

베이지안 기법이란, 사건과 관련 있는 어려 확률을 이용해 새롭게 일어날 사건을 추정하는 것

 

11-1. 전확률의 정리와 베이즈 정리의 차이

전확률의 정리: 각원인에 대한 조건부확률과 그 원인이되는 확률의 곱에 의한 가중합으로 사건 원인 계산

베이즈 정리: 사건 원인 가능성의 관계 설명

 


 

12. 딥러닝 분석

비선형 기법의 조합으로 높은 수준의 추상화를 시도한다.

 

ⓐ DNN : 은닉층 심층 구성

ⓑ CNN : 시각적 이미지 분석, 합성곱 신경망이라 부름

ⓒ RNN : 은닉에서 재귀함, 음성신호 연속적 시계열 데이터 분석 시 사용, 장기의존 & 기울기소실 우려

    우려 해결하고자, 확률적 경사하강법(손실함수의 가장 작은 지점 이용)/시간기반 오차역전파 활용 가중치 업데이트

 

 


 

13. 비정형 데이터 분석

  1. 오피니언 마이닝: 긍정 부정 중립으로 선호도 판별
  2. 웹 마이닝: 노드와 링크 활용, 웹내용 / 웹사용(접근패턴 등) / 웹구조(하이퍼링크 등) 마이닝
  3. 사회연결망 분석: 속성) <응구명범중> 응집력/구조적 등위성/명성/범위/중계

                     분석 측정 지표 중 중심성 

                     ⓐ 연결정도 중심성 : 특정 노드가 연결망 내에서 연결된 다른 노드들의 합

                     ⓑ 근접 중심성 : 각 노드 간 거리를 바탕으로 중심성 측정

                     ⓒ 매개 중심성 : 특정 노드가 다른 노드들 사이에 위치하는 정도, 영향력 파악

 


 

14. 앙상블 분석

예측 시 사용, 1-nearest neighor (가장 가까운 자료만 변하지 않으면 예측 모형 변하지 않음), 선형 회귀 모형(최소제곱법 추정)으로 하면 안정적임. 나머지는 예측 모형이 크게 바뀌는 경우가 존재해 불안정할 수 있음

 

 

14-1. 앙상블 기법 설명

 

 배깅: 학습데이터에서 많은 부트스트랩(동일한 크기 표본 여러개 생성하는 랜덤 복원추출 샘플링방법) 생성해 모델링해 예측모형제작

    장점: 분류가 잘돼 분산 감소됨, 성능 향상, 결측값이 있어도 괜찮음

    특징: 독립수행 후 다수결로 결정되는 방식. 연속형 변수: 다중 투표로 결정 / 범주형 변수: 평균으로 결정 

    단점: 계산이 복잡함

 

 부스팅: 잘못 분류된 개체에 가중치 적용해 부스팅하여, 예측력 약한 모델을 결합해 강한 예측 모델을 생성

    장점: 분류 힘들때 예측력 강화, 상당히 높은 성능, 오버피팅가능성 낮음, 대용량 데이터이고 데이터 간 관계 복잡할        수록 유리

    단점: 계산 복잡도 높음

    특징: 가중치를 계속 부여해가며 재조정. 정분류 데이터는 낮은 가중치, 오분류 데이터는 높은 가중치 부여

 

14-2. 랜덤 포레스트

의사결정나무의 특징인 분산이 크다는 점을 고려해, 더 많은 무작위성을 주어, 약한 학습기 생성 후 이를 선형 결합해 강력한 예측 알고리즘 생성

    장점: 예측력 좋음. 입력변수 많을 경우 배깅 부스팅과 비슷하거나 좋은 예측력을 보임

    단점: 이론적 설명 or 해석이 어려움

    주요 매개변수: (포최임) 포레스트 크기/최대허용 깊이/임의성 정도

 


 

15. 비모수 통계

모수를 가정하지 않고 분석하는 방법

 

15-1. 비모수 통계의 종류

단일표본 / 두 표본 / 분산 분석 / 무작위성 / 상관분석