가상환경 4

03. CentOS에 Spark 설치 + 에러 해결

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 이전 포스팅에 이어서, CentOS가 깔린 버추얼박스 가상 머신에 spark를 깔아 볼 것이다. 이 또한 방법 자체는 어렵지 않다. 순서를 크게 정리해보자면 1. spark 설치 링크를 이용해, 가상머신 터미널에 명령어로 가져 온다. 2. 압축을 해제한다. 3. 환경변수를 설정한다. 이 세 가지 방법이면 손쉽게 설치가 가능하다! 하지만 중간중간 겪었던 오류나, 처음 설치하다 보니 헤맸던 기록을 한번 해보려고 한다. 목차 가상 머신에 Spark 설치 방법 가상 머신에서 Spark 환경변수 설정 방법 01. 가상머신에 Spark 설치..

01. 가상머신 설치 후 CentOS 설치 + 아파치 스파크란?

목차 아파치 스파크란 스파크 실행 01. 아파치 스파크란 데이터 읽기부터 SQL 처리, 머신러닝 그리고 스트림처리에 이르기까지 다양한 데이터 분석 작업을 일관성있는 API로 수행할 수 있도록 설계한 빅데이터 처리 시스템 왜 하둡이 아닌 스파크를 쓰는 걸까? 스파크는 애초에 하둡을 보완하기 위해(혹은 함께 사용하기 위해) 개발되어 하둡을 대신한다고 보긴 어렵다. 하지만 하둡에서 맵리듀스를 대체할 수는 있다. ⬇ 참고: 이전 포스팅 링크 https://eng-sohee.tistory.com/34 03. 빅데이터의 분산 처리 이번에는 시각화에 적합한 데이터 마트를 구축하는 것을 목적으로, 분산 시스템에 의한 데이터 처리의 기본적 흐름에 관해 설명해보겠다. 새로운 개념이 화수분처럼 쏟아지고, 유사한 개념이 en..

01. 도커란 무엇인가?

데이터 엔지니어를 준비하며, 도커 학습의 필요성을 종종 들어왔다. 그러던 중, 이번에 쬰과 함께 전주시 빅데이터 공모전 준비를 할 때, 플젝 후반부에서 쬰의 PC와 내 PC 사이의 간극을 좁히는 과정에서, 도커의 필요성을 직접적으로 느꼈다. 이번 해상물류 프로젝트를 할 때는, 어김없이 도커가 필요할 것 같았기 때문에, 이번 프로젝트에서는 팀원들과 함께 도커를 쓰기로 먼저 약속을 했다. 플젝을 하며 자유자재로 도커를 활용하고자 공부를 해야만 한다. (세상은 넓고 할 공부는 많다.) 그래서 오늘부터 도커 공부에 돌입했다! 아자아자 화이팅! 🔥🔥🔥 목차 도커란 무엇인가? 도커를 사용할 때의 흐름 기존의 기술, 가상화, 도커 01. 도커란 무엇인가? 컨테이너를 사용해 응용 프로그램을 더 쉽게 만들고 배포하고 실..

02. 하둡(Hadoop) 활용한 스마트카 파일럿 프로젝트_VM 통합환경 구성

나는 오늘, 하둡을 활용한 스마트카 파일럿 프로젝트를 수행하기 위해 필요한 VM을 생성할 것이다. 앞서, 어떤 데이터셋을 활용해 어떤 레이어를 구축할 지 간단하게 정리한 포스팅이 있는데, 이를 읽어본다면 오늘 포스팅의 내용을 더 수월히 이해할 수 있을 것이다. ⬇ 이전 포스팅 참고 링크 01. 하둡(Hadoop) 활용한 스마트카 파일럿 프로젝트_개요 오늘부터는 대망의, 데이터 엔지니어링 파일럿 프로젝트를 진행 할 것이다! 이번 스마트카 파일럿 프로젝트에 대해 간단히 설명하겠다. 이번 프로젝트는 인프런의 강의를 참고하여, 데이터 수 eng-sohee.tistory.com 그럼 오늘의 포스팅을 시작하도록 하겠다! 목차 VM 통합환경 구성 개요 필요한 설치 프로그램 설명 리눅스 가상머신 설정 01. VM 통합..