데이터 공부/[자격증] 빅데이터분석기사
빅데이터분석기사 실기 단답형 대비
한소희DE
2022. 12. 1. 01:19
공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정하도록 하겠습니다.
현재 빅데이터분석기사 실기를 준비하고 있다.
작업형은 그럭저럭 예상이 가긴 하는데, 단답형이 어떤 것이 나올지 감이 안와서 정리를 하고 있다.
누군가에게 도움이 되길 바라며 공유를 해본다 ..!
나는 이것을 gsheet 로 옮겨서, 퀴즐렛처럼 만들어 활용했다.
최초의 인공신경망 입력층과 출력층으로만 구성되어 있고, XOR 문제 해결은 불가능함 |
퍼셉트론 |
출력층에서 계산한 값을 입력층으로 역으로 전달하며 가중치와 편향을 계산하는 알고리즘 | 역전파 알고리즘 |
대뇌피질 시각피질의 학습 과정을 모델화한 인공신경망 자율 학습을 통한 클러스터링이 가능 |
자기조직화지도 |
앙상블 기법의 일종, 여러 의사결정나무를 만들어 결론을 도출 의사결정나무 생성 시, 일부 요소들만 무작위로 추출하는 작업을 반복해가며 생성 |
랜덤포레스트 |
기존 영상처리 기능을 결합하여, 패턴을 통해 특징을 찾는 인공신경망 | CNN(합성곱신경망) |
과거의 계산값이 현재의 계산에 반영되며 가중치를 업데이트하는 인공신경망 은닉층에서 재귀구조를 지님 |
RNN(순환신경망) |
차원축소기법의 일종 여러 요인 중 주 요인(주 성분)을 찾아내며 차원을 단순화하는 분석 |
주성분 분석 |
차원축소기법의 일종 행렬을 특정한 방식으로 분해하는 과정에서 데이터의 특잇값을 추출하고, 이를 통해 차원을 단순화하는 분석 |
특이값 분해(SVD) |
두 벡터의 유사도를 두 벡터 간 각도로 측정하는 방식 | 코사인 유사도 |
앙상블 기법의 일종 동일한 알고리즘의 각각의 의사결정나무들을 독립.병렬적으로 학습 대표적인 예로 랜덤포레스트가 있음 |
배깅 |
앙상블 기법의 일종 다양한 알고리즘의 여러 의사결정나무들을 학습시켜 결과를 도출 |
보팅 |
앙상블 기법의 일종 순차적으로 나온 가중치를 활용해 약분류기를 강분류기로 만드는 기법 따라서 정답에 낮은 가중치, 오답에 높은 가중치를 부여하는 것이 특징 성능이 좋지만 오버피팅의 우려 |
부스팅 |
부스팅에서, 각 모델에게 가중치를 각각 부여하여 최종 분류기를 만드는 기법 | AdaBoost |
Gradient Descent 을 이용해 손실함수를 최소화하는 부스팅 | GBM |
CART 기반 의사결정나무를 만들고, 손실함수를 최소화하고, 모형 복잡도까지 고려된 부스팅 | XGBoost |
앙상블 기법의 일종 다른 모델의 예측결과가 트레이닝 데이터로써 다시 사용되는 기법 |
스태킹 |
강력한 하나의 모델 대신 여러개의 약한 모델을 조합해서 예측하는 기법 | 앙상블 기법 |
대량의 트랜잭션(거래) 데이터로부터 연관규칙을 찾는 것을 의미 | 연관규칙 분석 |
연관규칙 분석의 일종 거래 발생 항목집합에서 연관관계를 찾아내는 알고리즘 |
Apiriori 알고리즘(장바구니 분석) |
장바구니 분석의 신뢰도를 체크 A를 거래했을때, A를 거래한 개체가 B를 거래할 확률 |
신뢰도 |
A구매시 B를 구매할 가능성을 확인하는 지표 1보다 크면 A구매시 B구매할 확률 높고, 1보다 작으면 A구매시 B구매할 확률 낮다고 판단 AB동시거래수/A거래수*B거래수 |
향상도 |
전체 거래 중 A와 B의 거래가 동시에 일어난 교집합 | 지지도 |
민감도와 특이도로 그려지는 곡선 | ROC곡선 |
ROC 곡선의 밑 면적 | AUC |
분류를 위한 기준 선(결정경계)을 정의하는 모델 | 서포트벡터머신 |
결정경계(초평면)과 가장 가까이 있는 데이터 | 서포트벡터 |
결정경계와 서포트벡터 간의 거리 | 마진 |
표본 데이터 생성 방법의 일종 중복을 허용해서 임의로 추출 |
부트스트랩 |
데이터 특성을 마치 나무모양 가지처럼 분류해서 예측값 찾는 모형 | 의사결정나무 |
의사결정나무 모형에서 연속형 타깃변수를 예측하는 모형 | 회귀나무 |
선형 모형이 주어진 자료에 적합한지에 대한 정도를 체크하는 척도 | 결정계수 |
선형회귀분석의 일종 구하려는 결과와 실제 결과의 오차의 제곱이 최소가 되는 해를 구하는 방법 |
최소제곱법 |
선형회귀분석의 일종 최소값을 찾기 위해, 함수의 기울기를 내려가며 찾는 방법 |
경사하강법 |
독립변수 X를 사용해 종속변수 Y의 움직임을 예측,설명하는 회귀분석. 직선이 특징 |
선형회귀분석 |
독립변수들이 종속변쉥 미치는 영향을 추정할 수 있는 통계기법 | 회귀분석 |
종속변수가 범주형일 경우 이용하는 회귀분석. S자곡선이 특징 | 로지스틱회귀분석 |
분석하려는 독립변수의 상관관계가 매우 높아서 분석력이 떨어지는 특징 | 다중공선성 |
2개의 변수간 상관정도를 나타내는 지표. 상관관계 강도는 측정할 수 없음 | 공분산 |
공분산을 -1에서 1사이 값으로 표준화하여, 두 변수의 관계 강도를 확인할 수 있도록 수치화한 것 | 상관계수 |
과하게 학습되어 훈련데이터에 대한 성능이 높고 테스트데이터에 대한 성능이 낮은 것 | 과대적합 |
적게 학습되어 너무 단순해서 훈련데이터조차 예측할 수 없는 경우 | 과소적합 |
데이터에서 숨겨진 의미들을 찾아나가는 과정 | 데이터마이닝 |
인공지능의 한 분야로, 학습 데이터를 예측하는 것 | 기계학습=머신러닝 |
여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화를 시도하는 기계학습(머신러닝)의 분야 | 딥러닝 |
기계학습의 일종 정닯 레이블이 있는 상태에서 정답을 예측하는 학습 방법 |
지도학습 |
기계학습의 일종 정답 레이블이 없는 상태에서 정답을 알아내는 학습 방법 |
비지도학습 |
다수의 집단을 비교할때 집댄 내 분산, 총평균과 각 집단의 평균 차이에 의해 생긴 집단 간 분산 비교로 얻은 분포로 가설을 검증하는 통계 기법 | 분산분석 |
인공신경망에서, 입력층과 출력층 사이 위치하는 모든 층 | 은닉층 |
인공신경망에서, 최종 출력값이 자리잡는 층 | 출력층 |
분산의 제곱근. 평균으로부터 얼마나 떨어져 있는지 측정 | 표준편차 |
표본평균의 표준편차 | 표준오차 |
평균으로부터 얼마나 떨어져있는지 측정 | 분산 |
양성인데 음성이라고 예측하는 경우 | 1종 오류 |
음성인데 양성이라고 예측하는 경우 | 2종 오류 |
표본의 수가 무한히 커지면 표본의 분포와 관련없이 표본 평균은 정규분포를 따른다는 원칙 | 중심극한정리 |
표본 추출법의 일종 각 계층을 고루 대표할 수 있도록 표본을 임의로 추출 |
층화추출법 |
표본 추출법의 일종 구간별로 나눠서 임의로 데이터를 선택하며 표본을 추출하는 방법 |
계통추출법 |
일반적으로 사람들이 상식적으로 주장되는 것들이나 믿는 것들 | 귀무가설 |
귀무가설이 틀렸다고 판단될 때 대안으로 선택되는 가설 | 대립가설 |
가설을 기각 혹은 채택하겠다는 기준이며, 알파로 표현 | 유의수준 |
귀무가설이 맞다고 증명해줄 값들이 나올 확률 따라서 이것이 작을수록 귀무가설이 틀렸다고 의심하게 된다 |
유의확률 |
모집단에서 뽑힌 샘플 | 표본집단 |
모딥단에서 샘플을 뽑는 과정 | 표본추출 |
데이터의 분포가 치우친 정도를 측정하는 지표 | 왜도 |
데이터의 분포가 중심에 밀집된 정도를 측정하는 지표 | 첨도 |
모델에 투입되는 값을 0과 1 사이의 값으로 정규화해주는 방법 | 최소최대정규화 |
데이터의 특징을 가장 잘 나타낼수있는 변수부터 차근차근 선택하며 분석하는 기법 | 전진선택법 |
데이터의 특징을 가장 잘 나타내지못하는 변수부터 차근차근 제거하면서 분석하는 기법 | 후진제거법 |
전진선택법과 후진제거법을 번갈아가며 진행하며 분석하는 기법 | 단계적방법 |
데이터 분석 시작 전에 데이터를 시각화하거나 분석하고 통찰하는 활동 | EDA |
데이터를 4개영역으로 나눈뒤 3분위수에서 1분위수를 뺀값 | IQR |
다수의 클래스 데이터를 일부만 선택해 데이터 비율을 맞추는 불균형 데이터 처리 기법 | 언더 샘플링 |
소수의 클래스 데이터를 늘려서 데이터 비율을 맞추는 불균형 데이터 처리 기법 | 오버 샘플링 |
목표를 아는 상황에서 방법을 모를 때 사용하는 대책 | 솔루션 |
목표를 알고, 해결 방법도 알 때 사용하는 대책 | 최적화 |
목표는 모르고, 해결 방법은 알 때 사용하는 대책 | 통찰 |
목표도, 방법도 모를 때 사용하는 대책 | 발견 |
분석 업무를 별도 분석 조직에서 담당하는 회사 구조 | 집중구조 |
각자 부서에서 각자 분석을 수행하는 회사 구조 | 기능구조 |
분석조직 인력을 각 부서로 배치하여 부서에 맞는 분석을 수행하는 회사 구조 | 분산구조 |
데이터의 3V | Volume, Variety, Velocity |
정보주체가 데이터의 공개범위 등을 직접 결정함으로써 개인정보활용 권한을 보장하고 데이터 주권을 확립하는 패러다임 혹은 정책 | 마이데이터 |
예측값과 실제값의 교차표 | 혼동행렬 |
실제가 POSITIVE 올바르게 예측 실제가 NEGATIVE 올바르게 예측 실제가 NEGATIVE 인데 잘못 예측 실제가 POSITIVE 인데 잘못 예측 |
TP, TN, FP, FN (예측이 뒤에있는 알파벳) |
음성 중 맞춘 음성의 수 | 특이도 |
전체 개수 중에 양성과 음성을 맞춘 수 | 정확도 |
양성 중 맞춘 양성의 수 | 민감도 |
양성이라고 예측한 것 중에 실제 양성의 수 | 정밀도 |
전체 양성 중에서 검출된 양성의 수 | 재현율 |
정밀도와 재현율의 조화평균. 정밀도와 재현율 중 한쪽만 클때보다 두값이 골고루 클때 큰 값이 되는 지표 |
F1-Score |
관찰 대상의 속성에 따라 분류를 하는데, 이때 숫자의 순서는 의미가 없음 | 명목척도 |
관찰 대상의 속성에 따라 분류를 하는데, 이때 숫자의 순서는 의미가 있음 | 서열척도 |
관찰 대상의 속성을 상대적 크기로 나타냄 (EX:만족도 조사) | 등간척도 |
절대적 영점이 존재하고 모든 사칙연산이 가능하며, 명목.서열.등간 척도의 의미를 모두 내포함 | 비율척도 |