데이터 공부/빅데이터 & 하둡

01. 가상머신 설치 후 CentOS 설치 + 아파치 스파크란?

한소희DE 2021. 6. 15. 17:44

 

 

 

 

목차

아파치 스파크란

스파크 실행


 

 

01. 아파치 스파크란

데이터 읽기부터 SQL 처리, 머신러닝 그리고 스트림처리에 이르기까지 다양한 데이터 분석 작업을 일관성있는 API로 수행할 수 있도록 설계한 빅데이터 처리 시스템

 

 

왜 하둡이 아닌 스파크를 쓰는 걸까?

스파크는 애초에 하둡을 보완하기 위해(혹은 함께 사용하기 위해) 개발되어 하둡을 대신한다고 보긴 어렵다. 하지만 하둡에서 맵리듀스를 대체할 수는 있다.

 

⬇ 참고: 이전 포스팅 링크

https://eng-sohee.tistory.com/34

 

03. 빅데이터의 분산 처리

이번에는 시각화에 적합한 데이터 마트를 구축하는 것을 목적으로, 분산 시스템에 의한 데이터 처리의 기본적 흐름에 관해 설명해보겠다. 새로운 개념이 화수분처럼 쏟아지고, 유사한 개념이

eng-sohee.tistory.com

 

맵리듀스 대신 스파크(Spark)를 사용하는 이유는, 메모리에서 데이터를 연산하기 때문에 속도가 훨씬 빠르기 때문이다.

코드도 비교적 간결하고, 다양한 언어를 제공해 사용자가 편리하게 활용할 수 있다는 장점이 있다.

 

데이터는 거대해지고 데이터 프로세싱에 대한 비용은 저렴해지다보니, 빠르게 처리할 수 있는 소프트웨어의 탄생은 어찌보면 당연한 결과라고 한다. 따라서 UC버클리대에서 개발이 시작되었다.

 

 


 

02. 스파크 실행

스파크는 스칼라로 구현되어 자바 가상머신 기반으로 동작한다. 

우선 스파크 실습 환경을 만들기 위해 VirtualBox에 CentOS기반 가상 머신을 만들어주겠다.

 

 

 

2-1. 가상머신 설치

 

가상머신 설치하는 방법은 아래와 같으며, 설치한 뒤에는 위와 같은 사진처럼 보인다.

 

가상머신 설치하는 방법

1. VritualBox 사이트 - VMBox 다운로드
2. VMBox 접속 - 머신(M) - 새로 만들기
3. 모든 것은 설정된 대로 지정한 뒤 생성 (이때 하드디스크는 생성해주고, 최소 20GB 이상 권장)

 

 

2-2. CentOS 설치

설치 파일이 너무 많아서 이 부분은 조금 헷갈렸는데, 아래 방법대로 하면 된다.

 

 

CentOS 설치 방법
1. CentOS 공식홈페이지 - 다운로드
2. CentOS Linux - 윈도우10 경우 x86_64 선택
3. http://mirror.kakao.com/centos/~ 로 시작하는 링크 선택
4. CentOS-버전명-x86_64-dvd1.iso 형태의 파일 다운로드

 

 

2-3. VM Box에 CentOS 설치

 

 

 

설치가 다 되었으면, 설치를 원하는 VM을 선택한 뒤 아래 순서대로 클릭하여 설정한다.

CentOS를 VM에 설치하는 방법

1. 설정 버튼 클릭
2. 위처럼 뜬 팝업창에서 순서대로 저장소 - 광학드라이브 옆 CD모양 - 2-2에서 다운받은 파일 선택 - 확인
3. 시작 버튼 클릭 - Install CentOS~ 클릭 - 부팅이 다 될때까지 기다리기 - 

 

 

오류 발생!

 

그런데 문제가 생겼다. 이 화면에서 수 분간 움직이질 않는 것이다 ㅠㅠ

이를 해결하는 과정은 아래 포스팅에 기입해두었다.

 

아래 포스팅을 참고해 문제를 해결하면 된다.

 

01-1. VirtualBox VM 설치 에러 해결

아래 에러(Error) 해결 방법 ! boot with apic=debug and send a report. Then try booting with the'noapic' option. 버츄얼 박스 설치를 하던 중, VM에 CentOS가 제대로 설치되지 않았다. 나는 당연히 부팅이 되..

eng-sohee.tistory.com

 

 

 

 

2-4. VM에 Spark 설치

이제 본격적으로 VM에 Spark를 설치해보자. 스파크를 설치하기 전에 자바도 설치해야 하는데, 자바 설치과정 및 스파크 설치 과정은 아래 포스팅으로 작성해두었다.

 

⬇ 이전 포스팅 링크들

https://eng-sohee.tistory.com/60

 

CentOS에 JAVA 설치 + 에러 해결

목차 가상 머신에 JDK 설치하는 방법 가상 머신 내 JDK 환경변수 설정 방법 01. 가상 머신에 JDK를 설치하는 방법 이전 포스팅에서 가상 머신에 CentOS를 설치를 수행했으니, 이번엔 JAVA를 설치하자.

eng-sohee.tistory.com

 

https://eng-sohee.tistory.com/61

 

CentOS에 Spark 설치 + 에러 해결

이전 포스팅에 이어서, CentOS가 깔린 버추얼박스 가상머신에 spark를 깔아 볼 것이다. 이 또한 방법 자체는 어렵지 않다. 순서를 크게 정리해보자면 1. spark 설치 링크를 이용해, 가상머신 터미널에

eng-sohee.tistory.com