데이터 6

[책리뷰] 데이터 과학자 원칙

안녕하세요 한소희입니다. 회사에 들어온 새 책이 마침 '데이터 과학자 원칙'이라고 하길래, 냉큼 빌려왔습니다. 데이터 리더 9인이 말하는 더 나은 데이터 과학자로 살아가는 원칙과 철학, 데이터 과학자 원칙에 대한 리뷰를 해보려고 합니다. 01. 책 소개 이 책은 23년 6월 1일 초판 1쇄 발행된 책으로, 데이터 리더 9인의 철학과 메시지를 담은 책이다. 각 저자가 중요하게 생각하는 내용을 챕터로 다룬 책으로, 어떤 분은 운영 지침을, 어떤 분은 팀워크의 중요성을, 어떤 분은 본질을 언급하시며 독자에게 메시지를 전달한다. 02. 리뷰 가장 인상깊은 키워드 중 하나는 "오컴의 면도날"이다. '상황을 설명하는 여러 모델 중 가장 단순한 모델이 최선이다'라는 의미를 갖고 있는 메시지인데, 결론적으로 나는 이것..

04. DB - 데이터 모델링

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 목차 데이터 모델링 개념 개념적 모델링 논리적 모델링 01. 데이터 모델링 개념 데이터 모델링이란, 현실 세계에 존재하는 데이터를 컴퓨터 세계의 데이터베이스로 옮기는 변환 과정 예를 들어, 코끼리(현실 세계 데이터)를 데이터베이스로 정보를 저장한다고 가정하자. 우리는 1) 개념적 모델링 2) 논리적 모델링을 거쳐야 한다. 1) 첫 번 째로, 코끼리의 정보를 문서화한다. 예를 들어, '발이 4개, 몸무게는 1톤 이상' 등으로 정리할 수 있겠다. 두 번째로, 논리적 모델링을 수행한다. 기술한 정보를, 데이터베이스의 논리적 구조로 표현..

03. 빅데이터 분석기사 필기 - 3

빅데이터 분석기사 필기 정리의 마지막이다. 물론, 내가 세 차례에 거쳐 정리한 내용이 빅데이터 분석기사 범위의 전부는 결코 아니다. 내 기준에서 헷갈리기 쉬운 부분, 그리고 다소 중요하다고 생각되는 부분만 정리해 둔 자료이므로, 공부를 다 한 뒤 검토의 목적으로 이 포스팅을 활용하면 더욱 좋을 것으로 생각된다. 앞선 포스팅을 보지 않은 분들은, 이전 포스팅을 참고하면 도움이 더 될 것 같다고 생각한다. 포스팅 링크는 아래와 같다. ⬇ 이전 포스팅 링크 (1) 01. 빅데이터 분석기사 필기 - 1 / 빅분기 취득을 결심한 이유 나는 빅데이터분석기사를 작년 12월 1차 시험 신청을 했지만, 코로나바이러스로 인해 1차 시험이 취소되었다. 그래서 어쩔 수 없이 2차 시험을 준비해야만 했다. 따라서 올해 4월, ..

03. 데이터 셋 병합 (Concat, Merge)

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 데이터 분석을 할 때면, 데이터 셋을 병합해야 하는 일이 종종 생긴다. 왜냐하면 대부분의 데이터셋은 예쁘게 한 개의 세트 형태로 제공되지 않기 때문이다. 물론, 캐글이나 데이콘 같은 곳에서 제공하는 데이터는 예쁘게 잘 정제되어 있지만, 실제 현업에서 마주하는 데이터는 그렇지 않다. (어쩌다 알게 되었냐고요? 저도 알고 싶지 않았습니다.. 따흑. 데이터 처리 스킬이 부족한 시절, 실습생 때 데이터 셋을 병합할 때 꽤나 골머리를 앓았던 것으로 기억한다. 데이터의 무결성 이슈 때문에..) 여튼, pandas에서는 이 데이터들을 병합하는..

02. 데이터 Load, 라이브러리 import

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 지난 포스팅에 이어, 기초 of 기초인 데이터 로드와 라이러리 임포트 관련 포스팅이다. 라이브러리란 무엇인가? 파이썬 내부에 있는 만들어진 일종의 문법서. 독서실에서 책을 뽑아 와 읽듯, 우리는 이 라이브러리를 import하여 만들어진 함수로 다양한 업무를 수행할 수 있다. 앞선 포스팅에서의 pandas 가 이의 예시다. 이번 포스팅에서는 필요한 라이브러리를 import 해서, 재무회계 데이터를 load 해볼 것이다. 그 후, Data의 demension도 확인해보고, 재무회계 통계 데이터의 결측치를 간단하게 zerofill 해보..

01. DB - 데이터베이스 기본 개념

데이터베이스 공부에 앞서 - 데이터베이스 과목은, 학부 수업 때도 제일 흥미있게 들었던 과목이다. 물론 시간이 많이 지나 구체적 내용까지는 기억이 가물가물하지만, 다시한 번 전공 서적을 기반으로 복기를 해보아야겠다고 다짐했다. 조급해하지 않고, 차근차근 다시 내용을 짚어보며 부족한 부분을 보충하는 시간을 가져야겠다. 그럼 본격적으로 포스팅 시작! 목차 1. 데이터와 정보 2. 정보처리, 정보시스템, 데이터베이스 3. 데이터베이스의 정의 4. 데이터베이스의 특성 1. 데이터와 정보 데이터: 단순히 관찰하거나 측정해서 수집한 사실이나 값 정보: 의사 결정에 활용할 수 있도록 데이터를 의미있게 처리한 결과물 2. 정보처리, 정보시스템, 데이터베이스 2-1. 정보처리 데이터에서 정보를 추출하는 과정이나 방법 2..