목차
아파치 스파크란
스파크 실행
01. 아파치 스파크란
데이터 읽기부터 SQL 처리, 머신러닝 그리고 스트림처리에 이르기까지 다양한 데이터 분석 작업을 일관성있는 API로 수행할 수 있도록 설계한 빅데이터 처리 시스템
왜 하둡이 아닌 스파크를 쓰는 걸까?
스파크는 애초에 하둡을 보완하기 위해(혹은 함께 사용하기 위해) 개발되어 하둡을 대신한다고 보긴 어렵다. 하지만 하둡에서 맵리듀스를 대체할 수는 있다.
⬇ 참고: 이전 포스팅 링크
https://eng-sohee.tistory.com/34
맵리듀스 대신 스파크(Spark)를 사용하는 이유는, 메모리에서 데이터를 연산하기 때문에 속도가 훨씬 빠르기 때문이다.
코드도 비교적 간결하고, 다양한 언어를 제공해 사용자가 편리하게 활용할 수 있다는 장점이 있다.
데이터는 거대해지고 데이터 프로세싱에 대한 비용은 저렴해지다보니, 빠르게 처리할 수 있는 소프트웨어의 탄생은 어찌보면 당연한 결과라고 한다. 따라서 UC버클리대에서 개발이 시작되었다.
02. 스파크 실행
스파크는 스칼라로 구현되어 자바 가상머신 기반으로 동작한다.
우선 스파크 실습 환경을 만들기 위해 VirtualBox에 CentOS기반 가상 머신을 만들어주겠다.
2-1. 가상머신 설치
가상머신 설치하는 방법은 아래와 같으며, 설치한 뒤에는 위와 같은 사진처럼 보인다.
가상머신 설치하는 방법
1. VritualBox 사이트 - VMBox 다운로드
2. VMBox 접속 - 머신(M) - 새로 만들기
3. 모든 것은 설정된 대로 지정한 뒤 생성 (이때 하드디스크는 생성해주고, 최소 20GB 이상 권장)
2-2. CentOS 설치
설치 파일이 너무 많아서 이 부분은 조금 헷갈렸는데, 아래 방법대로 하면 된다.
CentOS 설치 방법
1. CentOS 공식홈페이지 - 다운로드
2. CentOS Linux - 윈도우10 경우 x86_64 선택
3. http://mirror.kakao.com/centos/~ 로 시작하는 링크 선택
4. CentOS-버전명-x86_64-dvd1.iso 형태의 파일 다운로드
2-3. VM Box에 CentOS 설치
설치가 다 되었으면, 설치를 원하는 VM을 선택한 뒤 아래 순서대로 클릭하여 설정한다.
CentOS를 VM에 설치하는 방법
1. 설정 버튼 클릭
2. 위처럼 뜬 팝업창에서 순서대로 저장소 - 광학드라이브 옆 CD모양 - 2-2에서 다운받은 파일 선택 - 확인
3. 시작 버튼 클릭 - Install CentOS~ 클릭 - 부팅이 다 될때까지 기다리기 -
오류 발생!
그런데 문제가 생겼다. 이 화면에서 수 분간 움직이질 않는 것이다 ㅠㅠ
이를 해결하는 과정은 아래 포스팅에 기입해두었다.
아래 포스팅을 참고해 문제를 해결하면 된다.
2-4. VM에 Spark 설치
이제 본격적으로 VM에 Spark를 설치해보자. 스파크를 설치하기 전에 자바도 설치해야 하는데, 자바 설치과정 및 스파크 설치 과정은 아래 포스팅으로 작성해두었다.
⬇ 이전 포스팅 링크들
https://eng-sohee.tistory.com/60
https://eng-sohee.tistory.com/61
'데이터 공부 > 빅데이터 & 하둡' 카테고리의 다른 글
02. CentOS에 JAVA 설치 + 에러 해결 (0) | 2021.06.16 |
---|---|
01-1. VirtualBox VM 설치 에러 해결 (0) | 2021.06.15 |
03. 빅데이터의 분산 처리 (0) | 2021.06.07 |
02. 빅데이터의 탐색 (0) | 2021.06.03 |
01. 빅데이터를 지탱하는 기술 - 빅데이터의 기초 지식 (0) | 2021.06.01 |