카테고리 전체보기 144

데이터허브(Datahub) 구축기 - (3/3) Confluent Kafka 및 DB 연동 과정, 느낀 점 & 마무리

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 데이터허브 구축기를 작성해 보고자 한다. 목차는 아래와 같으며, 포스팅이 생각보다 길어져서, 몇 개의 글로 나누어 포스팅할 예정이다. 첫 번째 포스팅에서는 데이터허브가 무엇인지 알아보았고 두 번째 포스팅에서는 데이터허브 구축 시 ElasticSearch 구축~연동 과정을 다루었다. 이번 포스팅 또한 두 번째 포스팅에 이어서, 데이터 허브 구축 과정을 포스팅할 생각이다. Confluent Kafka 연동 및 DB 연동, Datahub 구축 과정을 회고하며 포스팅을 마무리할 계획이다. 목차 01. Datahub 02. Datahub ..

데이터허브(Datahub) 구축기 - (2/3) ElasticSearch 구축 및 연동 과정

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 데이터허브 구축기를 작성해 보고자 한다. 목차는 아래와 같으며, 포스팅이 생각보다 길어져서, 몇 개의 글로 나누어 포스팅할 예정이다. 직전 포스팅에서는 데이터허브가 무엇인지 알아보았다면, 이번 포스팅에서는, 데이터 허브 구축 과정을 포스팅할 생각이다. 구축 개요 및 ElasticSearch 구축~연동 과정을 정리 작성하였다. 목차 01. Datahub 02. Datahub 용어 정리 03. Datahub 구축 (1/2) 04. Datahub를 구축하며 느낀 점, 마무리 03-1. Datahub 설치 - 개요 나는 Datahub를 ..

데이터허브(Datahub) 구축기 - (1/3) 데이터허브란, 데이터 허브 용어 살펴보기

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 데이터허브 구축기를 작성해 보고자 한다. 목차는 아래와 같으며, 포스팅이 생각보다 길어져서, 몇 개의 글로 나누어 포스팅할 예정이다. 이번 포스팅에서는, 데이터허브의 설명과 장점, 사용하는 용어를 정리하며 데이터허브가 무엇인지에 대해 작성하였다. 목차 01. Datahub 02. Datahub 용어 정리 03. Datahub 설치 04. Datahub를 구축하며 느낀 점, 마무리 01. Datahub 데이터허브란, 오픈소스 메타데이터 플랫폼이다. Linked In에서 개발되었으며, 데이터를 손쉽게 구성 및 관리할 수 있는 툴이다...

[Bigquery 최적화] 구체화된 뷰 (MATERIALIZED VIEW) 테이블에 대하여

빅쿼리( bigquery ) 최적화 방법론을 고민하고 있다. 그러던 중, 예기치 못한 상황에서 'materialized view'에 대해서 알게 되었다. 현재는 view 테이블로 streaming 테이블을 연산하고 있는데, 이를 개선할 수 있지 않을까 싶었다. 결론적으로는, 구체화된 뷰를 결국 도입하진 않았다. 그 생각의 과정과, 도입할 수 없었던 이유 등을 간단히 작성해보려고 한다. 01. MATERIALIZED VIEW란? https://cloud.google.com/bigquery/docs/materialized-views-intro?hl=ko 구체화된 뷰 소개 | BigQuery | Google Cloud BigQuery 구체화된 뷰의 특성, 이점, 제한사항을 설명하고 캐싱, 예약된 쿼리, 표준 ..

가장 실용적인 코딩 학습의 시작, 실시간 AI 튜터와 함께하는 '코드프렌즈' 소개

본 리뷰는 '롤로이'로부터 소정의 원고료를 지원받아, 솔직하게 작성한 리뷰입니다. 취미 혹은 진로 탐색을 목적으로 코딩을 처음 시작하는 사람들에게 소개하고 싶은 에듀테크 사이트가 있어서 소개를 해보고자 한다. 바로 코드프렌즈다. 코드프렌즈란, AI 튜터와 도움을 받아 홈페이지나 블로그 등을 개발하면서 코딩의 기초를 학습할 수 있는 서비스다. 01. 게이미피케이션 활용 코딩 학습 내가 이 서비스를 알게 되면서 가장 흥미롭다고 느꼈던 점 중 하나는, 프로덕트를 개발하는 과정에서 학습을 할 수 있다는 점이다. 처음 공부를 할 때, 물론 0부터 천천히 배우는 것이 기초를 탄탄히 할 수 있는 방법이라는 것은 누구나 잘 안다. 하지만, 처음부터 거대한 성벽을 마주하면 쉽사리 흥미가 떨어지기 마련이라고 생각한다. 이..

카테고리 없음 2023.08.12

Airflow XCOM 알아보기

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 01. Airflow XCOM이란? XCOM 은, cross communcation 의 약자로 하나의 DAG 내 task간 데이터를 주고 받고 싶을 때 사용하는 Airflow 기능이다. 이는 적은 양의 데이터에 대해서만 주고받을 때 유용하며, 데이터 프레임과 같은 큰 값을 전달하는 데에 사용하는 것은 적합하지 않다는 특징이 있다. 02. Variable과 XCOM Variable과 XCOM 은 공통점과 차이점이 존재한다. Variable XCOM 공통점 key - value 형식 구성 차이점 전역적 DAG 내에서만 통신 key-value의 형..

[책리뷰] 데이터 과학자 원칙

안녕하세요 한소희입니다. 회사에 들어온 새 책이 마침 '데이터 과학자 원칙'이라고 하길래, 냉큼 빌려왔습니다. 데이터 리더 9인이 말하는 더 나은 데이터 과학자로 살아가는 원칙과 철학, 데이터 과학자 원칙에 대한 리뷰를 해보려고 합니다. 01. 책 소개 이 책은 23년 6월 1일 초판 1쇄 발행된 책으로, 데이터 리더 9인의 철학과 메시지를 담은 책이다. 각 저자가 중요하게 생각하는 내용을 챕터로 다룬 책으로, 어떤 분은 운영 지침을, 어떤 분은 팀워크의 중요성을, 어떤 분은 본질을 언급하시며 독자에게 메시지를 전달한다. 02. 리뷰 가장 인상깊은 키워드 중 하나는 "오컴의 면도날"이다. '상황을 설명하는 여러 모델 중 가장 단순한 모델이 최선이다'라는 의미를 갖고 있는 메시지인데, 결론적으로 나는 이것..

MySQL CDC to Bigquery 환경에서 Soft Delete 를 권장해야 하는 이유

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 목차 소프트 딜리트 vs 하드 딜리트 Mysql CDC CDC와 Delete DataLake DataWarehouse DataLake와 Delete Bigquery와 Delete 01. 소프트 딜리트 vs 하드 딜리트 소프트 딜리트란, UPDATE 명령어를 사용하여 삭제 여부를 알수 있는 컬럼에 데이터가 삭제되었다는 값을 넣어 표현하는 삭제 방법이다. 하드 딜리트란, DELETE 명령어를 사용하여 특정 데이터를 삭제하는 삭제 방법이다. 쿼리로 비교하면 다음과 같다. 아래와 같은, 고객 테이블(테이블명: customer)이 있다고 가정하자. i..

06. 빅데이터 분석 기반의 구축 (마지막 Chapter)

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 문득, 빅데이터를 지탱하는 기술 이라는 책의 마지막 챕터 포스팅을 하지 않았다는 것을 인지했다. 따라서, 유종의 미를 거두고자(?) 마지막 챕터에 대한 느낀 점을 간단히 정리해보고자 한다. 목차 스키마리스 데이터의 애드 혹 분석 Hadoop에 의한 데이터 파이프라인 워크 플로 관리 도구에 의한 자동화 클라우드 서비스에 의한 데이터 파이프라인 01. 스키마리스 데이터의 애드 혹 분석 해당 챕터에서는, json 에 의한 스키마리스 데이터를 집계/분석하는 로직을 다룬다. 예제 위주로 설명이 되어 있는데, 예제를 직접 따라해보기 보다는 ..