스파크 3

04. Spark 간단히 살펴보기, 기능 둘러보기

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 요즘은 Spark 스터디를 진행하고 있다. 빠른 속도로 스터디를 진행 중이기 때문에, 필기 자료 업로드가 조금 늦었다. 이번 Spark 포스팅에서는, 스파크의 개념 및 간단한 기능을 둘러보고 그 내용을 정리/요약해 볼 것이다. 목차 아파치 스파크란? 스파크의 기능 간단히 살펴보기 01. 아파치 스파크란? 1-1. 아파치 스파크란? 통합 컴퓨팅 엔진이다. 즉, 데이터를 병렬로 처리하는 라이브러리의 집합을 뜻한다. 1-2. 스파크가 왜 좋은가? 통합 플랫폼이 제공되기 때문에 기존 분석 작업을 더 쉽게 가능하다. SQL쿼리로 읽고 머신..

03. CentOS에 Spark 설치 + 에러 해결

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 이전 포스팅에 이어서, CentOS가 깔린 버추얼박스 가상 머신에 spark를 깔아 볼 것이다. 이 또한 방법 자체는 어렵지 않다. 순서를 크게 정리해보자면 1. spark 설치 링크를 이용해, 가상머신 터미널에 명령어로 가져 온다. 2. 압축을 해제한다. 3. 환경변수를 설정한다. 이 세 가지 방법이면 손쉽게 설치가 가능하다! 하지만 중간중간 겪었던 오류나, 처음 설치하다 보니 헤맸던 기록을 한번 해보려고 한다. 목차 가상 머신에 Spark 설치 방법 가상 머신에서 Spark 환경변수 설정 방법 01. 가상머신에 Spark 설치..

03. 빅데이터의 분산 처리

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 이번에는 시각화에 적합한 데이터 마트를 구축하는 것을 목적으로, 분산 시스템에 의한 데이터 처리의 기본적 흐름에 관해 설명해보겠다. 새로운 개념이 화수분처럼 쏟아지고, 유사한 개념이 머릿속을 헤집어 정리하는데 비교적 상당한 시간이 소요되었던 부분이다. 하지만 머릿속으로 개념을 정리하니, 평소 궁금했던 질문들이 한결 해소되었다. 그럼, 분산 시스템에 의한 데이터 처리의 기본적 흐름에 대해 포스팅을 시작하겠다. (나름 열심히 포스팅을 진행했지만, 저도 공부를 하며 정리한 내용이므로 중간에 오류가 있을 수 있습니다. 혹여 게시물에 이슈..