데이터 공부 72

데이터허브(Datahub) 구축기 - (3/3) Confluent Kafka 및 DB 연동 과정, 느낀 점 & 마무리

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 데이터허브 구축기를 작성해 보고자 한다. 목차는 아래와 같으며, 포스팅이 생각보다 길어져서, 몇 개의 글로 나누어 포스팅할 예정이다. 첫 번째 포스팅에서는 데이터허브가 무엇인지 알아보았고 두 번째 포스팅에서는 데이터허브 구축 시 ElasticSearch 구축~연동 과정을 다루었다. 이번 포스팅 또한 두 번째 포스팅에 이어서, 데이터 허브 구축 과정을 포스팅할 생각이다. Confluent Kafka 연동 및 DB 연동, Datahub 구축 과정을 회고하며 포스팅을 마무리할 계획이다. 목차 01. Datahub 02. Datahub ..

데이터허브(Datahub) 구축기 - (2/3) ElasticSearch 구축 및 연동 과정

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 데이터허브 구축기를 작성해 보고자 한다. 목차는 아래와 같으며, 포스팅이 생각보다 길어져서, 몇 개의 글로 나누어 포스팅할 예정이다. 직전 포스팅에서는 데이터허브가 무엇인지 알아보았다면, 이번 포스팅에서는, 데이터 허브 구축 과정을 포스팅할 생각이다. 구축 개요 및 ElasticSearch 구축~연동 과정을 정리 작성하였다. 목차 01. Datahub 02. Datahub 용어 정리 03. Datahub 구축 (1/2) 04. Datahub를 구축하며 느낀 점, 마무리 03-1. Datahub 설치 - 개요 나는 Datahub를 ..

데이터허브(Datahub) 구축기 - (1/3) 데이터허브란, 데이터 허브 용어 살펴보기

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 데이터허브 구축기를 작성해 보고자 한다. 목차는 아래와 같으며, 포스팅이 생각보다 길어져서, 몇 개의 글로 나누어 포스팅할 예정이다. 이번 포스팅에서는, 데이터허브의 설명과 장점, 사용하는 용어를 정리하며 데이터허브가 무엇인지에 대해 작성하였다. 목차 01. Datahub 02. Datahub 용어 정리 03. Datahub 설치 04. Datahub를 구축하며 느낀 점, 마무리 01. Datahub 데이터허브란, 오픈소스 메타데이터 플랫폼이다. Linked In에서 개발되었으며, 데이터를 손쉽게 구성 및 관리할 수 있는 툴이다...

[Bigquery 최적화] 구체화된 뷰 (MATERIALIZED VIEW) 테이블에 대하여

빅쿼리( bigquery ) 최적화 방법론을 고민하고 있다. 그러던 중, 예기치 못한 상황에서 'materialized view'에 대해서 알게 되었다. 현재는 view 테이블로 streaming 테이블을 연산하고 있는데, 이를 개선할 수 있지 않을까 싶었다. 결론적으로는, 구체화된 뷰를 결국 도입하진 않았다. 그 생각의 과정과, 도입할 수 없었던 이유 등을 간단히 작성해보려고 한다. 01. MATERIALIZED VIEW란? https://cloud.google.com/bigquery/docs/materialized-views-intro?hl=ko 구체화된 뷰 소개 | BigQuery | Google Cloud BigQuery 구체화된 뷰의 특성, 이점, 제한사항을 설명하고 캐싱, 예약된 쿼리, 표준 ..

Airflow XCOM 알아보기

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 01. Airflow XCOM이란? XCOM 은, cross communcation 의 약자로 하나의 DAG 내 task간 데이터를 주고 받고 싶을 때 사용하는 Airflow 기능이다. 이는 적은 양의 데이터에 대해서만 주고받을 때 유용하며, 데이터 프레임과 같은 큰 값을 전달하는 데에 사용하는 것은 적합하지 않다는 특징이 있다. 02. Variable과 XCOM Variable과 XCOM 은 공통점과 차이점이 존재한다. Variable XCOM 공통점 key - value 형식 구성 차이점 전역적 DAG 내에서만 통신 key-value의 형..

[책리뷰] 데이터 과학자 원칙

안녕하세요 한소희입니다. 회사에 들어온 새 책이 마침 '데이터 과학자 원칙'이라고 하길래, 냉큼 빌려왔습니다. 데이터 리더 9인이 말하는 더 나은 데이터 과학자로 살아가는 원칙과 철학, 데이터 과학자 원칙에 대한 리뷰를 해보려고 합니다. 01. 책 소개 이 책은 23년 6월 1일 초판 1쇄 발행된 책으로, 데이터 리더 9인의 철학과 메시지를 담은 책이다. 각 저자가 중요하게 생각하는 내용을 챕터로 다룬 책으로, 어떤 분은 운영 지침을, 어떤 분은 팀워크의 중요성을, 어떤 분은 본질을 언급하시며 독자에게 메시지를 전달한다. 02. 리뷰 가장 인상깊은 키워드 중 하나는 "오컴의 면도날"이다. '상황을 설명하는 여러 모델 중 가장 단순한 모델이 최선이다'라는 의미를 갖고 있는 메시지인데, 결론적으로 나는 이것..

MySQL CDC to Bigquery 환경에서 Soft Delete 를 권장해야 하는 이유

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 목차 소프트 딜리트 vs 하드 딜리트 Mysql CDC CDC와 Delete DataLake DataWarehouse DataLake와 Delete Bigquery와 Delete 01. 소프트 딜리트 vs 하드 딜리트 소프트 딜리트란, UPDATE 명령어를 사용하여 삭제 여부를 알수 있는 컬럼에 데이터가 삭제되었다는 값을 넣어 표현하는 삭제 방법이다. 하드 딜리트란, DELETE 명령어를 사용하여 특정 데이터를 삭제하는 삭제 방법이다. 쿼리로 비교하면 다음과 같다. 아래와 같은, 고객 테이블(테이블명: customer)이 있다고 가정하자. i..

06. 빅데이터 분석 기반의 구축 (마지막 Chapter)

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 문득, 빅데이터를 지탱하는 기술 이라는 책의 마지막 챕터 포스팅을 하지 않았다는 것을 인지했다. 따라서, 유종의 미를 거두고자(?) 마지막 챕터에 대한 느낀 점을 간단히 정리해보고자 한다. 목차 스키마리스 데이터의 애드 혹 분석 Hadoop에 의한 데이터 파이프라인 워크 플로 관리 도구에 의한 자동화 클라우드 서비스에 의한 데이터 파이프라인 01. 스키마리스 데이터의 애드 혹 분석 해당 챕터에서는, json 에 의한 스키마리스 데이터를 집계/분석하는 로직을 다룬다. 예제 위주로 설명이 되어 있는데, 예제를 직접 따라해보기 보다는 ..

Airflow를 helm으로 배포해보기 - (2)

** Airflow 관련 업데이트 소식 지난 4월 1일, Airflow에서 2.5.3 버전을 release 했다. 중요한 변화는 없었지만, 크고 작은 버그들이 개선됐다고 한다. 참고문서: Airflow Release Notes https://airflow.apache.org/docs/apache-airflow/stable/release_notes.html#airflow-2-5-3-2023-04-01 Release Notes — Airflow Documentation airflow.apache.org 지난 포스팅에 이어서, GKE 환경의 Airflow를 처음부터 배포해 보도록 하겠다. 01. DB 생성 Airflow 를 처리하기 위해서는 postgreSQL 서버가 필요하다. 간단한 테스트 용 postgre..