데이터 공부/[자격증] 빅데이터분석기사

03. 빅데이터 분석기사 필기 - 3

한소희DE 2021. 6. 2. 21:52

빅데이터 분석기사 필기 정리의 마지막이다. 

물론, 내가 세 차례에 거쳐 정리한 내용이 빅데이터 분석기사 범위의 전부는 결코 아니다.

내 기준에서 헷갈리기 쉬운 부분, 그리고 다소 중요하다고 생각되는 부분만 정리해 둔 자료이므로, 공부를 다 한 뒤 검토의 목적으로 이 포스팅을 활용하면 더욱 좋을 것으로 생각된다.

 

앞선 포스팅을 보지 않은 분들은, 이전 포스팅을 참고하면 도움이 더 될 것 같다고 생각한다.

포스팅 링크는 아래와 같다.

 

 

⬇ 이전 포스팅 링크 (1)

 

01. 빅데이터 분석기사 필기 - 1 / 빅분기 취득을 결심한 이유

나는 빅데이터분석기사를 작년 12월 1차 시험 신청을 했지만, 코로나바이러스로 인해 1차 시험이 취소되었다. 그래서 어쩔 수 없이 2차 시험을 준비해야만 했다. 따라서 올해 4월, 빅데이터분석기

eng-sohee.tistory.com

 

⬇ 이전 포스팅 링크 (2)

 

02. 빅데이터 분석기사 필기 - 2

앞서, 빅데이터분석기사 통계관련 필기 자료를 정리해서 업로드했는데, 이어서 통계관련 분석 개념에 대해 정리했던 내용을 포스팅해보려고 한다. (혹시 내용 상 오류가 있는 경우 e-mail(eng.sohee@

eng-sohee.tistory.com

 

 

 

 

 

 

 

 

목차

데이터 시각화

비즈니스 기여도

빅데이터 모형 개선방안

모니터링

 


 

01. 데이터 시각화

데이터 시각화 기능

설명 / 탐색(패턴 등) / 표현(표현 통한 공감 야기)

 

데이터 시각화 목적

정보 전달 / 설득

 

데이터 시각화 유형

시간 / 분포 / 관계(상관관계) / 비교 / 공간

 

빅데이터 시각화 도구

  • 태블로(클라우드 기반)
  • 인포그램(인포그래픽 실시간연동, 교육강의미디어)
  • 차트블록(코딩없이 가시화,웹 기반)
  • 데이터래퍼(쉽게 데이터 업로드, 다양한 레이아웃)

 

데이터 시각화 절차

구조화 - 시각화(도구선택, 구현) - 시각표현(전달요소+, 결과물 검증)

 


 

02. 비즈니스 기여도

비즈니스 기여도 평가란, 사업 수행에 영향 주는 요소를 수치화된 자료 형태로 산출 방법

 

 

2-1. 비즈니스 기여도 평가지표

  • 총소유비용(TCO): 하나 자산 획득할 때 연관된 모든 비용 고려 위함
  • 투자대비효과(ROI): (누적 순 효과/총비용)*100(%)
  • 순현재가치(NPV): 특정 시점의 투자 금액과 매출금액 차이를 이자율 고려해 계산
  • 내부수익률(IRR): 순현재가치를 0으로 만드는 할인률
  • 투자회수기간(PP): 누계투자금액=매출금액합

 


 

03. 빅데이터 모형 개선방안

3-1. 예측 모형에 대한 성능 추적 - 추적신호(TSS)

계산방법: 예측오차들의 합/평균절대편차

 

해석방법: 0부근이 정상이며 -4와 4사이 존재

 

추적신호 순서: 예측오차 계산>모형 점검여부>예측모형 개선방향 결정

분류 결과를 토대로 적합한 신규 서비스모형 도출

※ 신규 서비스에 대해 사용자와 제공 가치를 도출할 때는 서비스 품질 관점에서 고려해야 함

 

 

 

3-2. 빅데이터 비즈니스의 핵심 성공 요인

목적 및 참여요소 측면 : 빅데이터 분석목적 활용목적에 대해 명확히 정의, 볼륨보다는 가치창출 관점에서의 검토 필요, 업무전문가의 참여가 필수적

 

프로세스 측면 : 작은 규모로 시작하고 성공 사례를 공유하며 확장하는 형태로 추진

 

 


 

04. 모니터링

 

4-1. 분석 모형 모니터링

실시간 배치 스케줄러(일련의 작업들을 묶어서 처리) 정상적으로 실행되어 모니터링 진행

혹은, 수작업 말고 자동 모니터링 시켜서 이상 시에만 확인

 

 

4-2. 분석 모형 모니터링 솔루션(각종 분석 및 시각화 솔루션 존재)

  • R에서 샤이니 이용해 결과를 사용자 작업 파일과 서버상 파일을 이용해 간단히 배포 가능
  • 사용자 작업 파일(사용자 작업 화면에 대한 설계)과 서버상 파일(구체적 분석작업 모델을 포함)을 나누고 들어가면 R로 분석 모델 실행 가능해서 별도 언어변환 필요 없으며, 멀티코어는 돈이 든다.
  • 분석 주기가 일간일 경우: 플랫폼의 안정성과 품질 판단
  • 분석 주기가 주간일 경우: 성능 변화 추이 판단

 

 

4-3. 성능 모니터링 이벤트 유형

측정 항목 정의하고 임계치 설정, 설정 임계치가 초과되면 성능 이벤트

이는 데이터 분석으로 사전예방 or 성능 개선 수행을 위한 목적으로 설정되는 경우가 대부분

 

※ 임계치 설정 시 고정기준설정X, 서비스 형태와 시스템 특성 고려해 응답시간 처리속도 만족도 등 다양한 것, 주변 요소들도 포함해 설정