카테고리 전체보기 144

05. 플럼과 카프카 개념+설치

목차 플럼이란 플럼 설치 카프카란 카프카 설치 01. 플럼이란 이번 프로젝트에서는, 빅데이터 수집을 위해 플럼을 사용한다. 플럼은 DB, API, 파일 등으로부터의 로그 데이터 수집을 지원하는 소프트웨어다. 사실 요즘은 플럼이 오래된 기능이라고 잘 쓰이지 않고, 이를 대체하여 현업에선 fluentd 등을 더 많이 찾는다고 한다. 2-1. 플럼의 구조 플럼은 크게 5가지로 구성되어 있다. 플럼의 주요 구성요소 소스(Source) 데이터 소스 파일로부터 데이터 수집 싱크(Sink) 채널로부터 데이터 전달받아 적재 장소로 전달 HDFS, ElasticSearch, Hive 등을 제공 채널(Channel) 소스와 싱크를 연결 인터셉터(Interceptor) 수집 중 데이터 가공을 원할 때 선택적으로 사용 에이전..

04-1. 클라우데라 매니저 HDFS 에러 해결

앞서 ※ 4번째 포스팅에서, 클라우데라 매니저를 설치했는데 아래와 같은 오류가 났다... 설치와 동시에 HDFS에서 먹통이 일어난 것! ※ 4번째 포스팅 링크 04. 수집 요구사항 정의 + HDFS, 주키퍼 설치 및 실행 오늘은 우리의 프로젝트 수집 요구사항을 구체적으로 정의해보고, 수집에 필요한 프로그램 중 HDFS와 주키퍼를 설치해보는 실습을 해볼 것이다. 그리고, 간단한 HDFS와 주키퍼 실행을 공부해볼 것 eng-sohee.tistory.com 그래서 오류 해결을 하는 과정을 한번 포스팅에 담아보고자 한다! 찾아보니, 디스크공간부족, 하둡 네임 노드 통신에러, 권한 문제 등으로 인해 이렇게 나오는 것이라고 한다. 가장 유력한 원인은 하둡 네임 노드가 Safe Mode로 전환되어서라는데, 따라서 P..

04. 수집 요구사항 정의 + HDFS, 주키퍼 설치 및 실행

오늘은 우리의 프로젝트 수집 요구사항을 구체적으로 정의해보고, 수집에 필요한 프로그램 중 HDFS와 주키퍼를 설치해보는 실습을 해볼 것이다. 그리고, 간단한 HDFS와 주키퍼 실행을 공부해볼 것이다. 목차 수집 요구사항 정의 HDFS와 주키퍼 설치 HDFS와 주키퍼 실행 01. 수집 요구사항 정의 앞서 포스팅한 프로젝트 개요에서도, 빅데이터 수집 요구사항을 정의했었다. 그 요구사항을 보다 더 자세히 정의해 볼 것이다. 우선 요구사항을 크게 두 가지로 정의할 수 있다. 요구사항 1: 차량의 다양한 장치로부터 발생하는 로그 파일을 수집해서 기능별 상태를 점검 요구사항 2: 운전자의 운행 정보가 담긴 로그를 실시간으로 수집해서 주행 패턴을 분석 해당 요구사항을 구체화해보겠다. 수집 요구사항 구체화 분석 및 해..

03. CentOS에 Spark 설치 + 에러 해결

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 이전 포스팅에 이어서, CentOS가 깔린 버추얼박스 가상 머신에 spark를 깔아 볼 것이다. 이 또한 방법 자체는 어렵지 않다. 순서를 크게 정리해보자면 1. spark 설치 링크를 이용해, 가상머신 터미널에 명령어로 가져 온다. 2. 압축을 해제한다. 3. 환경변수를 설정한다. 이 세 가지 방법이면 손쉽게 설치가 가능하다! 하지만 중간중간 겪었던 오류나, 처음 설치하다 보니 헤맸던 기록을 한번 해보려고 한다. 목차 가상 머신에 Spark 설치 방법 가상 머신에서 Spark 환경변수 설정 방법 01. 가상머신에 Spark 설치..

02. CentOS에 JAVA 설치 + 에러 해결

목차 가상 머신에 JDK 설치하는 방법 가상 머신 내 JDK 환경변수 설정 방법 01. 가상 머신에 JDK를 설치하는 방법 이전 포스팅에서 가상 머신에 CentOS를 설치를 수행했으니, 이번엔 JAVA를 설치하자. 나는 가상 머신(VM)은 버추얼박스를 사용했다. Spark를 설치하는 데에 JAVA를 선 설치해야 하는 이유? Spark를 구동하려면 JAVA 언어가 필요하기 때문! JAVA를 설치하는 방법은 매우 쉽다. yum install java-1.8.0-openjdk yum install java-1.8.0-openjdk-devel 위와 같은 명령어를 CentOS 내 터미널에 기입하면 되기 때문이다. 1-1. superuser 에러 하지만... 여기서 문제가 발생할 때가 있다. ❓❗ 에러 살펴보기 t..

03. 로그 시뮬레이터 설치

오늘은 로그 시뮬레이터를 설치해 볼 것이다. 사실 로그 시뮬레이터는 강의에서 이미 만들어진 것을 가져와, 파일 질라를 통해 업데이트하고 잘 업데이트가 되었는지 확인하는 것이 전부다. 따라서 비교적 간단한 작업에 속한다. 하지만 이 개념을 이해하는게 처음에는 힘들었다. 로그 시뮬레이터가 대체 뭔가 싶기도 했고, 이걸 내가 직접 만들어보고 싶은데 어떻게 만들어야 할지를 고민하고 생각하며 임하다 보니 조금 더 버벅거렸던 것 같다. 그럼 한번, 로그시뮬레이터를 설치하고 잘 설치되었는지 확인하는 작업을 해보겠다! 목차 로그 시뮬레이터 설치 01. 로그 시뮬레이터 설치 우리는 Server02에 로그 시뮬레이터를 설치할 것이다. 1-1. 로그시뮬레이터, 로그파일 설치될 파일 만들기 나는 pilot-pjt 폴더 안에 ..

01-1. VirtualBox VM 설치 에러 해결

아래 에러(Error) 해결 방법을 다룬 포스팅이다. ! boot with apic=debug and send a report. Then try booting with the'noapic' option. 버츄얼 박스 설치를 하던 중, VM에 CentOS가 제대로 설치되지 않았다. 나는 당연히 부팅이 되고 있는 줄 알고 기다렸는데 ㅋㅋ너무 오래 걸려서 읽어보니 에러였던 것! 그래서 01에서 다루기에는 너무 글 양이 많아질 것 같아서, 01-1로 빼 정리해보려고 한다. 에러 사진은 아래와 같다. ❓❗ 에러(Error) ! boot with apic=debug and send a report. Then try booting with the'noapic' option. 에러를 해결하기 위해 찾아보니, 두 가지 ..

01. 가상머신 설치 후 CentOS 설치 + 아파치 스파크란?

목차 아파치 스파크란 스파크 실행 01. 아파치 스파크란 데이터 읽기부터 SQL 처리, 머신러닝 그리고 스트림처리에 이르기까지 다양한 데이터 분석 작업을 일관성있는 API로 수행할 수 있도록 설계한 빅데이터 처리 시스템 왜 하둡이 아닌 스파크를 쓰는 걸까? 스파크는 애초에 하둡을 보완하기 위해(혹은 함께 사용하기 위해) 개발되어 하둡을 대신한다고 보긴 어렵다. 하지만 하둡에서 맵리듀스를 대체할 수는 있다. ⬇ 참고: 이전 포스팅 링크 https://eng-sohee.tistory.com/34 03. 빅데이터의 분산 처리 이번에는 시각화에 적합한 데이터 마트를 구축하는 것을 목적으로, 분산 시스템에 의한 데이터 처리의 기본적 흐름에 관해 설명해보겠다. 새로운 개념이 화수분처럼 쏟아지고, 유사한 개념이 en..

09. 뒤돌아보면 한 발은 나아가 있으니까

01. 오늘의 아침일기 하루가 또 시작됐다. 항상 비슷한 하루지만, 오늘은 또 새롭고 특별한 하루라고 생각하며 공부하자. 어제보다 조금 더 아는 게 많은 사람이 되었으면 좋겠다. 02. DONE LIST [공부] [하둡] 클라우데라 매니저 오류 해결 [공부] [하둡] 플럼 플럼 개념이해 후 설치 [공부] [하둡] 카프카 카프카 개념이해 후 설치 [공부] [스파크] 스파크 가상머신에 스파크랑 자바 설치 [공부] [프로젝트] 기업프로젝트 프로젝트 방향성 탐색 + 정리 [공부] [프로젝트] 해상물류 프로젝트 데이터 파이프라인 고민해보기 (특히 비용적 부분!) 03. 오늘의 회고 하루종일 공부한 거 치곤 생각보다 많은 것을 얻지는 못한 것 같아 아쉬움이 들던 하루다. 하지만, 그럼에도 불구하고 어제보다는 발전되..

05. 데이터 엔지니어링 - 수집 요구사항 및 수집 파이프라인 정의

나는 해당 프로젝트에서 데이터 엔지니어링을 맡았다. 내가 할 역할은 아래 WBS 중에서도 Data Processing 파트다. (데이터 엔지니어 꿈나무 🙋🏻‍♀️🙋🏻‍♀️) ⬇ 우리 팀의 WBS 링크 https://eng-sohee.tistory.com/50 따라서 오늘, 나는 가장 첫 작업인, 데이터 수집 요구사항 정의를 해보려 한다. 목차 수집 요구사항 수집 파이프라인 01. 수집 요구사항 요구사항 1: 정박 대기시간 예측 모델 요구사항 2: 실시간 선박 위치 좌표+대시보드화 (선박 검색) 요구사항 3: 해양 기상데이터 시각화 요구사항 4: 정박지 예약 현황 공유 요구사항 5: 위의 요구사항을 조금 더 자세히 구체화하여 작성해보았다. 매우 간단한 인터페이스 정의서라고 볼 수 있겠다. 요구사항 수집 구..