개인(팀) 프로젝트 23

07. Selenium - 동적 사이트 테이블 Crawling

목차 크롤링 사용 목적 Selenium 구현 과정 01. 크롤링 사용 목적 우리는 동적 페이지 내 데이터를 실시간 수집을 해와야 한다. 대시보드에 실시간으로 데이터를 띄워주어야 하기 때문이다. 따라서 데이터 크롤링 작업이 필요하다. 동적 페이지란? 같은 URL에 접속해도 정보가 조금씩 달라지는 페이지를 말한다. 대부분의 페이지는 동적 페이지며, 백과사전과 같이 데이터가 수정이 잘 되지 않는 페이지가 정적 페이지다. 1-1. Selenium을 사용한 이유 이때, Selenium과 BeautifulSoup4 중 Selenium을 사용하기로 했다. 왜냐하면, 우리가 크롤링해야 하는 사이트인 Port-Mis는 URL로만 데이터 접근이 어려운 사이트기 때문이다. = 즉, 같은 URL로 접속해도, 입력장치에 의한 ..

[웨비나] 'RDBMS에서 MongoDB로의 Replacement 전략과 사례' 를 들으며

나는 현재 스마트 해상물류 ICT 멘토링 프로젝트에서, MongoDB를 다루고 있다. 그리고, 예비 데이터 엔지니어로써 RDBMS와 NoSQL에 대해 공부하고 있기도 한다. 따라서, NoSQL 중에 인지도가 높은 MongoDB의 다양한 사례를 보면, 추후 인사이트를 넓히는 데에 도움이 될 것 같아 웨비나를 신청했다. 목차 웨비나 개요 기존 RDBMS와 MongoDB의 차이, MongoDB의 장점 웨비나 후기 01. 웨비나 개요 관계형 데이터베이스는 30년 넘게 엔터프라이즈 데이터 관리의 토대가 되어 왔다고 한다. 그러나 오늘날 애플리케이션을 구축하고 실행하는 방식과 끊임없이 증가하는 새로운 데이터 소스 및 사용자 로드가 더해지면서 관계형 데이터베이스는 한계에 부딪히게 된다. 따라서 최신 애플리케이션의 요..

07. 플럼(flume)을 통한 빅데이터 수집

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 앞서 이번 프로젝트에서 우리는 working 파일 밑에 로그 시뮬레이터를 설치했다. draw.io로 그림을 그려보면 아래와 같다. 뭔가 그림이 이상한데 (?) ㅋㅋ 로그 시뮬레이터를 실행하면 거기서 나오는 데이터가, 만들어진 폴더에 각각 저장되는 시스템이다. 배치 로그 데이터는 SmartCar 폴더에, 리얼타임 로그 데이터는 driver-realtime-log에 저장된다. 앞선 포스팅을 보면 이해가 더욱 잘 된다. ⬇ 이전 포스팅 링크 https://eng-sohee.tistory.com/58 03. 로그 시뮬레이터 설치 오늘은 ..

06. 플럼과 카프카 기능 구현 방법

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 목차 플럼 에이전트 생성하기 카프카 기능 구현 01. 플럼 에이전트 생성하기 우선 클라우데라 매니저에서 플럼 - 구성을 클릭한 뒤 맨 아래쪽으로 쭉 내려보자. 플럼의 Agent 이름 그리고 구성파일 영역에 에이전트를 생성해볼 것이다. 에이전트의 이름은 각각 SmartCar Agent와, DriveCarInfo Agent이다. 에이전트가 두 개밖에 없으므로, 한 개의 conf 파일에 두 에이전트를 정의할 것이다. 1-1. SamartCar (배치 로그파일) 에이전트 생성 왜 spooldir 를 사용하는지 등은 수집 기능 요구사항 정..

05. 플럼과 카프카 개념+설치

목차 플럼이란 플럼 설치 카프카란 카프카 설치 01. 플럼이란 이번 프로젝트에서는, 빅데이터 수집을 위해 플럼을 사용한다. 플럼은 DB, API, 파일 등으로부터의 로그 데이터 수집을 지원하는 소프트웨어다. 사실 요즘은 플럼이 오래된 기능이라고 잘 쓰이지 않고, 이를 대체하여 현업에선 fluentd 등을 더 많이 찾는다고 한다. 2-1. 플럼의 구조 플럼은 크게 5가지로 구성되어 있다. 플럼의 주요 구성요소 소스(Source) 데이터 소스 파일로부터 데이터 수집 싱크(Sink) 채널로부터 데이터 전달받아 적재 장소로 전달 HDFS, ElasticSearch, Hive 등을 제공 채널(Channel) 소스와 싱크를 연결 인터셉터(Interceptor) 수집 중 데이터 가공을 원할 때 선택적으로 사용 에이전..

04-1. 클라우데라 매니저 HDFS 에러 해결

앞서 ※ 4번째 포스팅에서, 클라우데라 매니저를 설치했는데 아래와 같은 오류가 났다... 설치와 동시에 HDFS에서 먹통이 일어난 것! ※ 4번째 포스팅 링크 04. 수집 요구사항 정의 + HDFS, 주키퍼 설치 및 실행 오늘은 우리의 프로젝트 수집 요구사항을 구체적으로 정의해보고, 수집에 필요한 프로그램 중 HDFS와 주키퍼를 설치해보는 실습을 해볼 것이다. 그리고, 간단한 HDFS와 주키퍼 실행을 공부해볼 것 eng-sohee.tistory.com 그래서 오류 해결을 하는 과정을 한번 포스팅에 담아보고자 한다! 찾아보니, 디스크공간부족, 하둡 네임 노드 통신에러, 권한 문제 등으로 인해 이렇게 나오는 것이라고 한다. 가장 유력한 원인은 하둡 네임 노드가 Safe Mode로 전환되어서라는데, 따라서 P..

04. 수집 요구사항 정의 + HDFS, 주키퍼 설치 및 실행

오늘은 우리의 프로젝트 수집 요구사항을 구체적으로 정의해보고, 수집에 필요한 프로그램 중 HDFS와 주키퍼를 설치해보는 실습을 해볼 것이다. 그리고, 간단한 HDFS와 주키퍼 실행을 공부해볼 것이다. 목차 수집 요구사항 정의 HDFS와 주키퍼 설치 HDFS와 주키퍼 실행 01. 수집 요구사항 정의 앞서 포스팅한 프로젝트 개요에서도, 빅데이터 수집 요구사항을 정의했었다. 그 요구사항을 보다 더 자세히 정의해 볼 것이다. 우선 요구사항을 크게 두 가지로 정의할 수 있다. 요구사항 1: 차량의 다양한 장치로부터 발생하는 로그 파일을 수집해서 기능별 상태를 점검 요구사항 2: 운전자의 운행 정보가 담긴 로그를 실시간으로 수집해서 주행 패턴을 분석 해당 요구사항을 구체화해보겠다. 수집 요구사항 구체화 분석 및 해..

03. 로그 시뮬레이터 설치

오늘은 로그 시뮬레이터를 설치해 볼 것이다. 사실 로그 시뮬레이터는 강의에서 이미 만들어진 것을 가져와, 파일 질라를 통해 업데이트하고 잘 업데이트가 되었는지 확인하는 것이 전부다. 따라서 비교적 간단한 작업에 속한다. 하지만 이 개념을 이해하는게 처음에는 힘들었다. 로그 시뮬레이터가 대체 뭔가 싶기도 했고, 이걸 내가 직접 만들어보고 싶은데 어떻게 만들어야 할지를 고민하고 생각하며 임하다 보니 조금 더 버벅거렸던 것 같다. 그럼 한번, 로그시뮬레이터를 설치하고 잘 설치되었는지 확인하는 작업을 해보겠다! 목차 로그 시뮬레이터 설치 01. 로그 시뮬레이터 설치 우리는 Server02에 로그 시뮬레이터를 설치할 것이다. 1-1. 로그시뮬레이터, 로그파일 설치될 파일 만들기 나는 pilot-pjt 폴더 안에 ..

05. 데이터 엔지니어링 - 수집 요구사항 및 수집 파이프라인 정의

나는 해당 프로젝트에서 데이터 엔지니어링을 맡았다. 내가 할 역할은 아래 WBS 중에서도 Data Processing 파트다. (데이터 엔지니어 꿈나무 🙋🏻‍♀️🙋🏻‍♀️) ⬇ 우리 팀의 WBS 링크 https://eng-sohee.tistory.com/50 따라서 오늘, 나는 가장 첫 작업인, 데이터 수집 요구사항 정의를 해보려 한다. 목차 수집 요구사항 수집 파이프라인 01. 수집 요구사항 요구사항 1: 정박 대기시간 예측 모델 요구사항 2: 실시간 선박 위치 좌표+대시보드화 (선박 검색) 요구사항 3: 해양 기상데이터 시각화 요구사항 4: 정박지 예약 현황 공유 요구사항 5: 위의 요구사항을 조금 더 자세히 구체화하여 작성해보았다. 매우 간단한 인터페이스 정의서라고 볼 수 있겠다. 요구사항 수집 구..

02. 하둡(Hadoop) 활용한 스마트카 파일럿 프로젝트_VM 통합환경 구성

나는 오늘, 하둡을 활용한 스마트카 파일럿 프로젝트를 수행하기 위해 필요한 VM을 생성할 것이다. 앞서, 어떤 데이터셋을 활용해 어떤 레이어를 구축할 지 간단하게 정리한 포스팅이 있는데, 이를 읽어본다면 오늘 포스팅의 내용을 더 수월히 이해할 수 있을 것이다. ⬇ 이전 포스팅 참고 링크 01. 하둡(Hadoop) 활용한 스마트카 파일럿 프로젝트_개요 오늘부터는 대망의, 데이터 엔지니어링 파일럿 프로젝트를 진행 할 것이다! 이번 스마트카 파일럿 프로젝트에 대해 간단히 설명하겠다. 이번 프로젝트는 인프런의 강의를 참고하여, 데이터 수 eng-sohee.tistory.com 그럼 오늘의 포스팅을 시작하도록 하겠다! 목차 VM 통합환경 구성 개요 필요한 설치 프로그램 설명 리눅스 가상머신 설정 01. VM 통합..