데이터 공부/빅데이터 & 하둡 15

데이터허브(Datahub) 구축기 - (3/3) Confluent Kafka 및 DB 연동 과정, 느낀 점 & 마무리

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 데이터허브 구축기를 작성해 보고자 한다. 목차는 아래와 같으며, 포스팅이 생각보다 길어져서, 몇 개의 글로 나누어 포스팅할 예정이다. 첫 번째 포스팅에서는 데이터허브가 무엇인지 알아보았고 두 번째 포스팅에서는 데이터허브 구축 시 ElasticSearch 구축~연동 과정을 다루었다. 이번 포스팅 또한 두 번째 포스팅에 이어서, 데이터 허브 구축 과정을 포스팅할 생각이다. Confluent Kafka 연동 및 DB 연동, Datahub 구축 과정을 회고하며 포스팅을 마무리할 계획이다. 목차 01. Datahub 02. Datahub ..

데이터허브(Datahub) 구축기 - (2/3) ElasticSearch 구축 및 연동 과정

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 데이터허브 구축기를 작성해 보고자 한다. 목차는 아래와 같으며, 포스팅이 생각보다 길어져서, 몇 개의 글로 나누어 포스팅할 예정이다. 직전 포스팅에서는 데이터허브가 무엇인지 알아보았다면, 이번 포스팅에서는, 데이터 허브 구축 과정을 포스팅할 생각이다. 구축 개요 및 ElasticSearch 구축~연동 과정을 정리 작성하였다. 목차 01. Datahub 02. Datahub 용어 정리 03. Datahub 구축 (1/2) 04. Datahub를 구축하며 느낀 점, 마무리 03-1. Datahub 설치 - 개요 나는 Datahub를 ..

데이터허브(Datahub) 구축기 - (1/3) 데이터허브란, 데이터 허브 용어 살펴보기

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 데이터허브 구축기를 작성해 보고자 한다. 목차는 아래와 같으며, 포스팅이 생각보다 길어져서, 몇 개의 글로 나누어 포스팅할 예정이다. 이번 포스팅에서는, 데이터허브의 설명과 장점, 사용하는 용어를 정리하며 데이터허브가 무엇인지에 대해 작성하였다. 목차 01. Datahub 02. Datahub 용어 정리 03. Datahub 설치 04. Datahub를 구축하며 느낀 점, 마무리 01. Datahub 데이터허브란, 오픈소스 메타데이터 플랫폼이다. Linked In에서 개발되었으며, 데이터를 손쉽게 구성 및 관리할 수 있는 툴이다...

[책리뷰] 데이터 과학자 원칙

안녕하세요 한소희입니다. 회사에 들어온 새 책이 마침 '데이터 과학자 원칙'이라고 하길래, 냉큼 빌려왔습니다. 데이터 리더 9인이 말하는 더 나은 데이터 과학자로 살아가는 원칙과 철학, 데이터 과학자 원칙에 대한 리뷰를 해보려고 합니다. 01. 책 소개 이 책은 23년 6월 1일 초판 1쇄 발행된 책으로, 데이터 리더 9인의 철학과 메시지를 담은 책이다. 각 저자가 중요하게 생각하는 내용을 챕터로 다룬 책으로, 어떤 분은 운영 지침을, 어떤 분은 팀워크의 중요성을, 어떤 분은 본질을 언급하시며 독자에게 메시지를 전달한다. 02. 리뷰 가장 인상깊은 키워드 중 하나는 "오컴의 면도날"이다. '상황을 설명하는 여러 모델 중 가장 단순한 모델이 최선이다'라는 의미를 갖고 있는 메시지인데, 결론적으로 나는 이것..

06. 빅데이터 분석 기반의 구축 (마지막 Chapter)

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 문득, 빅데이터를 지탱하는 기술 이라는 책의 마지막 챕터 포스팅을 하지 않았다는 것을 인지했다. 따라서, 유종의 미를 거두고자(?) 마지막 챕터에 대한 느낀 점을 간단히 정리해보고자 한다. 목차 스키마리스 데이터의 애드 혹 분석 Hadoop에 의한 데이터 파이프라인 워크 플로 관리 도구에 의한 자동화 클라우드 서비스에 의한 데이터 파이프라인 01. 스키마리스 데이터의 애드 혹 분석 해당 챕터에서는, json 에 의한 스키마리스 데이터를 집계/분석하는 로직을 다룬다. 예제 위주로 설명이 되어 있는데, 예제를 직접 따라해보기 보다는 ..

04. Spark 간단히 살펴보기, 기능 둘러보기

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 요즘은 Spark 스터디를 진행하고 있다. 빠른 속도로 스터디를 진행 중이기 때문에, 필기 자료 업로드가 조금 늦었다. 이번 Spark 포스팅에서는, 스파크의 개념 및 간단한 기능을 둘러보고 그 내용을 정리/요약해 볼 것이다. 목차 아파치 스파크란? 스파크의 기능 간단히 살펴보기 01. 아파치 스파크란? 1-1. 아파치 스파크란? 통합 컴퓨팅 엔진이다. 즉, 데이터를 병렬로 처리하는 라이브러리의 집합을 뜻한다. 1-2. 스파크가 왜 좋은가? 통합 플랫폼이 제공되기 때문에 기존 분석 작업을 더 쉽게 가능하다. SQL쿼리로 읽고 머신..

05. 워크플로 관리와 데이터 플로우

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 워크플로의 관리는 배치 수집에 반드시 필요하다. 나는 현재 기업 협업 프로젝트를 하고 있는데, 이 프로젝트에서도 워크플로 관리의 필요성을 여실히 느꼈다. 따라서 '워크플로 관리'와 '데이터 플로우'에 대해 자세히 공부해보려고 한다. 목차 워크플로 관리 배치형의 데이터 플로우 스트리밍 형의 데이터 플로우 01. 워크플로 관리 워크플로란, 작업 절차를 말한다. 1-1. 워크플로 관리가 필요한 이유 우리는 정기적/반복적 배치 처리의 상황에서 워크 플로우가 존재한다. 데이터 수집은 하나의 명령으로만 생성되는 것이 아니기 때문이다. 이때,..

04. 빅데이터의 축적

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 이제 데이터를 수집하고 분산 스토리지에 저장하기까지의 프로세스를 공부해 볼 것이다. 우선 데이터의 종류는 크게 벌크형과 스트리밍 형이 있고, 이 형태에 따라 저장 프로세스의 차이가 크기 때문에, 이 둘을 나눠 공부/비교해 보겠다. 그리고, 요즘은 NoSQL에 데이터를 저장하는 트렌드가 있기 때문에, NoSQL에 데이터를 수집하기 위해 알아야 할 것들에 대해 공부해볼 것이다. (이전 NoSQL 중 대표적인 MongoDB에 대한 웨비나를 들은 적이 있는데, MongoDB에 대해 추가적으로 알고 싶은 분들은 아래 정리해 둔 포스팅을 참..

03. CentOS에 Spark 설치 + 에러 해결

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 이전 포스팅에 이어서, CentOS가 깔린 버추얼박스 가상 머신에 spark를 깔아 볼 것이다. 이 또한 방법 자체는 어렵지 않다. 순서를 크게 정리해보자면 1. spark 설치 링크를 이용해, 가상머신 터미널에 명령어로 가져 온다. 2. 압축을 해제한다. 3. 환경변수를 설정한다. 이 세 가지 방법이면 손쉽게 설치가 가능하다! 하지만 중간중간 겪었던 오류나, 처음 설치하다 보니 헤맸던 기록을 한번 해보려고 한다. 목차 가상 머신에 Spark 설치 방법 가상 머신에서 Spark 환경변수 설정 방법 01. 가상머신에 Spark 설치..

02. CentOS에 JAVA 설치 + 에러 해결

목차 가상 머신에 JDK 설치하는 방법 가상 머신 내 JDK 환경변수 설정 방법 01. 가상 머신에 JDK를 설치하는 방법 이전 포스팅에서 가상 머신에 CentOS를 설치를 수행했으니, 이번엔 JAVA를 설치하자. 나는 가상 머신(VM)은 버추얼박스를 사용했다. Spark를 설치하는 데에 JAVA를 선 설치해야 하는 이유? Spark를 구동하려면 JAVA 언어가 필요하기 때문! JAVA를 설치하는 방법은 매우 쉽다. yum install java-1.8.0-openjdk yum install java-1.8.0-openjdk-devel 위와 같은 명령어를 CentOS 내 터미널에 기입하면 되기 때문이다. 1-1. superuser 에러 하지만... 여기서 문제가 발생할 때가 있다. ❓❗ 에러 살펴보기 t..