아파치 스파크 2

04. Spark 간단히 살펴보기, 기능 둘러보기

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 요즘은 Spark 스터디를 진행하고 있다. 빠른 속도로 스터디를 진행 중이기 때문에, 필기 자료 업로드가 조금 늦었다. 이번 Spark 포스팅에서는, 스파크의 개념 및 간단한 기능을 둘러보고 그 내용을 정리/요약해 볼 것이다. 목차 아파치 스파크란? 스파크의 기능 간단히 살펴보기 01. 아파치 스파크란? 1-1. 아파치 스파크란? 통합 컴퓨팅 엔진이다. 즉, 데이터를 병렬로 처리하는 라이브러리의 집합을 뜻한다. 1-2. 스파크가 왜 좋은가? 통합 플랫폼이 제공되기 때문에 기존 분석 작업을 더 쉽게 가능하다. SQL쿼리로 읽고 머신..

01. 가상머신 설치 후 CentOS 설치 + 아파치 스파크란?

목차 아파치 스파크란 스파크 실행 01. 아파치 스파크란 데이터 읽기부터 SQL 처리, 머신러닝 그리고 스트림처리에 이르기까지 다양한 데이터 분석 작업을 일관성있는 API로 수행할 수 있도록 설계한 빅데이터 처리 시스템 왜 하둡이 아닌 스파크를 쓰는 걸까? 스파크는 애초에 하둡을 보완하기 위해(혹은 함께 사용하기 위해) 개발되어 하둡을 대신한다고 보긴 어렵다. 하지만 하둡에서 맵리듀스를 대체할 수는 있다. ⬇ 참고: 이전 포스팅 링크 https://eng-sohee.tistory.com/34 03. 빅데이터의 분산 처리 이번에는 시각화에 적합한 데이터 마트를 구축하는 것을 목적으로, 분산 시스템에 의한 데이터 처리의 기본적 흐름에 관해 설명해보겠다. 새로운 개념이 화수분처럼 쏟아지고, 유사한 개념이 en..