데이터 엔지니어 16

[책리뷰] 데이터 과학자 원칙

안녕하세요 한소희입니다. 회사에 들어온 새 책이 마침 '데이터 과학자 원칙'이라고 하길래, 냉큼 빌려왔습니다. 데이터 리더 9인이 말하는 더 나은 데이터 과학자로 살아가는 원칙과 철학, 데이터 과학자 원칙에 대한 리뷰를 해보려고 합니다. 01. 책 소개 이 책은 23년 6월 1일 초판 1쇄 발행된 책으로, 데이터 리더 9인의 철학과 메시지를 담은 책이다. 각 저자가 중요하게 생각하는 내용을 챕터로 다룬 책으로, 어떤 분은 운영 지침을, 어떤 분은 팀워크의 중요성을, 어떤 분은 본질을 언급하시며 독자에게 메시지를 전달한다. 02. 리뷰 가장 인상깊은 키워드 중 하나는 "오컴의 면도날"이다. '상황을 설명하는 여러 모델 중 가장 단순한 모델이 최선이다'라는 의미를 갖고 있는 메시지인데, 결론적으로 나는 이것..

Airflow Helm 배포 - Helm 과 Chart 를 알아보기

공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. Kubernetes 환경에서 Airflow를 운영할 때, 일반적으로 Helm 차트를 이용하여 배포 및 운영을 한다. 이유는, Airflow 에서 제공하는 공식 Helm 차트를 제공하기 때문이며, 이를 통해 특정 클라우드 제공 업체에 얽매이지 않고 Airflow를 운영할 수 있다. Helm 의 장점 Helm 을 사용하면, 복잡한 쿠버네티스 기반의 애플리케이션을 쉽게 설치 가능하다. 설치뿐만 아니라, 업데이트도 간결하다. helm 차트로 하나로 묶여 있다 보니, 여러 리소스가 묶인 복잡한 소프트웨어를 동시에 관리하기 수월하여 관리가 쉽다. Helm의 단점 하지만 Helm..

Apache Airflow 처음부터 빌드해보기 + 4

현재까지 진행한 내용을 정리하자면, 우리는 VM 안에 새로운 가상환경을 만들어 airflow를 설치했다. 앞으로 우리는 DAG 파일을 만들거고, 가장 먼저 sqlite 에서 데이터를 출력해와 테이블을 생성할 것이다. 이 작업을 함께 진행해보자. 01. DAG 생성 간단한 DAG를 생성해보겠다. Sqlite에 새로운 Table을 주기적으로 생성하는 task을 만들어 볼 것이다! 앞선 포스팅에서 생성한 dags 폴더 안에, dag명을 딴 py 파일을 생성한 뒤, 위와 같이 작성해준다. 설명은 아래와 같다. from airflow.models import DAG - DAG import from airflow.providers.sqlite.operators.sqlite import SqliteOperator -..

신입 데이터 엔지니어, 합격을 하기까지의 여정

안녕하세요 한소희입니다. 저는 입사를 앞둔 신입 데이터 엔지니어가 됐습니다. 데이터 엔지니어를 준비하게 된 계기 및 과정, 취업 과정까지 겪었던 기나긴 여정을 스스로 회고하고자 포스팅해보려 합니다. 목차 어쩌다가 '데이터 엔지니어'라는 꿈이 생겼나 데이터 엔지니어를 준비하던 과정 이력서 그리고 면접 합격과 다짐 01. 어쩌다가 '데이터 엔지니어'라는 꿈이 생겼나 1-1. 대학교 2학년, SCM에서 데이터를 발견하다. 나는 산업경영공학과 출신이다. 1학년 때 배웠던 산업공학개론을 듣고, 물류유통에 흥미가 생겼다. 따라서 물류유통 관련 외부 대외활동들을 하며 인사이트를 키웠다. 나는, 이 과정 속에서 큰 기업의 성공 전략이 모두 데이터에 귀결됨을 깨달았다. 한국청년물류포럼 활동 중 세미나에서 내가 발표했던 ..

Apache Airflow 처음부터 빌드해보기 + 1

Airflow를 사용해본 경험은 꽤 되지만, 이는 누군가가 Docker로 사용하기 좋게 build해놓은 것을 썼기 때문에 온전히 내 것이라는 느낌이 들지 않았다. 따라서 이번 프로젝트를 진행하면서 Airflow를 처음부터 직접 설치하며 실행해보고 기초를 완전히 다져보고자 Udemy 수업을 수강하고 구글링을 하는 등 공부를 해보았다. 오늘은 지난 주 배운 내용을 온전히 내 것으로 만들기 위해 복습을 해보았다. 1. airflow란 무엇인가 https://eng-sohee.tistory.com/80 01. Airflow 개념 + Docker를 통한 Airflow 설치 01. Airflow란 무엇인가? Airflow는 에어비앤비에서 개발한 워크플로우 스케줄링 및 모니터링 플랫폼이다. 이는 동작 순서 및 방식과..

[웨비나] 'RDBMS에서 MongoDB로의 Replacement 전략과 사례' 를 들으며

나는 현재 스마트 해상물류 ICT 멘토링 프로젝트에서, MongoDB를 다루고 있다. 그리고, 예비 데이터 엔지니어로써 RDBMS와 NoSQL에 대해 공부하고 있기도 한다. 따라서, NoSQL 중에 인지도가 높은 MongoDB의 다양한 사례를 보면, 추후 인사이트를 넓히는 데에 도움이 될 것 같아 웨비나를 신청했다. 목차 웨비나 개요 기존 RDBMS와 MongoDB의 차이, MongoDB의 장점 웨비나 후기 01. 웨비나 개요 관계형 데이터베이스는 30년 넘게 엔터프라이즈 데이터 관리의 토대가 되어 왔다고 한다. 그러나 오늘날 애플리케이션을 구축하고 실행하는 방식과 끊임없이 증가하는 새로운 데이터 소스 및 사용자 로드가 더해지면서 관계형 데이터베이스는 한계에 부딪히게 된다. 따라서 최신 애플리케이션의 요..

12. 블로그 재미붙이기

01. Done List [공부] [해상물류 프로젝트] 데이터 연동방법 모색 [공부] [AWS Lambda] Lambda 활용한 API 배포 & MongoDB 연동 [공부] [Selenium & BeautifulSoup] Port-Mis 시설사용현황 크롤링해 결과물 추출 [공부] [해상물류 미팅] 20:00 PM 미팅 [공부] [Spark] 스파크 공부 - 내일 스터디 준비 [운동] [오전헬스] 11:00 AM 운동 다녀오기 02. 저녁 일기 해야 할 일을 무사히 끝냈다. 물론, 공부를 하는 과정에서 만난 수많은 에러 때문에 중간중간 괴로웠지만, 결과적으로는 성공적으로 마무리할 수 있어서 두 다리 쭉 뻗고 잘 수 있겠다. 오늘은 헬스를 첫 등록했다. 지난 겨울 잠실에서 살던 추억이 떠올랐다. 저녁에 혼자..

11. CS 탄탄히

01. 오늘의 아침 글 읽기 Team-Neighborhood/I-want-to-study-Data-Science 데이터 사이언스를 공부하고 싶은 분들을 위한 글 . Contribute to Team-Neighborhood/I-want-to-study-Data-Science development by creating an account on GitHub. github.com 데이터 엔지니어가 되고 싶다. 아침에 이 글을 읽어보며, 데이터 엔지니어링 역량도 중요하지만 무엇보다도 반드시 CS 지식을 완벽히, 탄탄히 숙지해야겠다는 생각을 했다. 나는 네트워크나 운영체제는 잘 모르는 반전공자(산업공학도다 보니, 데이터베이스나 SQL 분석 파이썬은 조금 할 줄 알았다. 아이러니하게도..)다 보니, CS 공부가 더 ..

03. 로그 시뮬레이터 설치

오늘은 로그 시뮬레이터를 설치해 볼 것이다. 사실 로그 시뮬레이터는 강의에서 이미 만들어진 것을 가져와, 파일 질라를 통해 업데이트하고 잘 업데이트가 되었는지 확인하는 것이 전부다. 따라서 비교적 간단한 작업에 속한다. 하지만 이 개념을 이해하는게 처음에는 힘들었다. 로그 시뮬레이터가 대체 뭔가 싶기도 했고, 이걸 내가 직접 만들어보고 싶은데 어떻게 만들어야 할지를 고민하고 생각하며 임하다 보니 조금 더 버벅거렸던 것 같다. 그럼 한번, 로그시뮬레이터를 설치하고 잘 설치되었는지 확인하는 작업을 해보겠다! 목차 로그 시뮬레이터 설치 01. 로그 시뮬레이터 설치 우리는 Server02에 로그 시뮬레이터를 설치할 것이다. 1-1. 로그시뮬레이터, 로그파일 설치될 파일 만들기 나는 pilot-pjt 폴더 안에 ..

09. 뒤돌아보면 한 발은 나아가 있으니까

01. 오늘의 아침일기 하루가 또 시작됐다. 항상 비슷한 하루지만, 오늘은 또 새롭고 특별한 하루라고 생각하며 공부하자. 어제보다 조금 더 아는 게 많은 사람이 되었으면 좋겠다. 02. DONE LIST [공부] [하둡] 클라우데라 매니저 오류 해결 [공부] [하둡] 플럼 플럼 개념이해 후 설치 [공부] [하둡] 카프카 카프카 개념이해 후 설치 [공부] [스파크] 스파크 가상머신에 스파크랑 자바 설치 [공부] [프로젝트] 기업프로젝트 프로젝트 방향성 탐색 + 정리 [공부] [프로젝트] 해상물류 프로젝트 데이터 파이프라인 고민해보기 (특히 비용적 부분!) 03. 오늘의 회고 하루종일 공부한 거 치곤 생각보다 많은 것을 얻지는 못한 것 같아 아쉬움이 들던 하루다. 하지만, 그럼에도 불구하고 어제보다는 발전되..