데이터 공부/빅데이터 & 하둡 15

01-1. VirtualBox VM 설치 에러 해결

아래 에러(Error) 해결 방법을 다룬 포스팅이다. ! boot with apic=debug and send a report. Then try booting with the'noapic' option. 버츄얼 박스 설치를 하던 중, VM에 CentOS가 제대로 설치되지 않았다. 나는 당연히 부팅이 되고 있는 줄 알고 기다렸는데 ㅋㅋ너무 오래 걸려서 읽어보니 에러였던 것! 그래서 01에서 다루기에는 너무 글 양이 많아질 것 같아서, 01-1로 빼 정리해보려고 한다. 에러 사진은 아래와 같다. ❓❗ 에러(Error) ! boot with apic=debug and send a report. Then try booting with the'noapic' option. 에러를 해결하기 위해 찾아보니, 두 가지 ..

01. 가상머신 설치 후 CentOS 설치 + 아파치 스파크란?

목차 아파치 스파크란 스파크 실행 01. 아파치 스파크란 데이터 읽기부터 SQL 처리, 머신러닝 그리고 스트림처리에 이르기까지 다양한 데이터 분석 작업을 일관성있는 API로 수행할 수 있도록 설계한 빅데이터 처리 시스템 왜 하둡이 아닌 스파크를 쓰는 걸까? 스파크는 애초에 하둡을 보완하기 위해(혹은 함께 사용하기 위해) 개발되어 하둡을 대신한다고 보긴 어렵다. 하지만 하둡에서 맵리듀스를 대체할 수는 있다. ⬇ 참고: 이전 포스팅 링크 https://eng-sohee.tistory.com/34 03. 빅데이터의 분산 처리 이번에는 시각화에 적합한 데이터 마트를 구축하는 것을 목적으로, 분산 시스템에 의한 데이터 처리의 기본적 흐름에 관해 설명해보겠다. 새로운 개념이 화수분처럼 쏟아지고, 유사한 개념이 en..

03. 빅데이터의 분산 처리

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 이번에는 시각화에 적합한 데이터 마트를 구축하는 것을 목적으로, 분산 시스템에 의한 데이터 처리의 기본적 흐름에 관해 설명해보겠다. 새로운 개념이 화수분처럼 쏟아지고, 유사한 개념이 머릿속을 헤집어 정리하는데 비교적 상당한 시간이 소요되었던 부분이다. 하지만 머릿속으로 개념을 정리하니, 평소 궁금했던 질문들이 한결 해소되었다. 그럼, 분산 시스템에 의한 데이터 처리의 기본적 흐름에 대해 포스팅을 시작하겠다. (나름 열심히 포스팅을 진행했지만, 저도 공부를 하며 정리한 내용이므로 중간에 오류가 있을 수 있습니다. 혹여 게시물에 이슈..

02. 빅데이터의 탐색

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. ⬇ 첫 번째 포스팅 링크 01. 빅데이터의 기초 지식 나는 데이터엔지니어를 희망한다. 데이터엔지니어가 몹!시! 되고 싶은 사람으로서, '빅데이터를 지탱하는 기술'을 수차례 읽었던 것 같다. 머릿속에 있는 정보를 작성해 온전히 내 것으로 정보 eng-sohee.tistory.com 앞선 첫 번째 포스팅에 이어, 오늘은 빅데이터의 탐색 과정에 대해 정리해보고자 한다. (첫 번째 포스팅을 참고하실 분들은 위 링크를 접속하여 참고해주시기 바랍니다.) 목차 크로스 집계의 기본 열 지향 스토리지에 의한 고속화 애드 혹 분석과 시각화 도구 데..

01. 빅데이터를 지탱하는 기술 - 빅데이터의 기초 지식

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 나는 데이터엔지니어를 희망한다. 데이터엔지니어가 되고 싶은 사람으로서, '빅데이터를 지탱하는 기술'을 수차례 읽었던 것 같다. 머릿속에 있는 정보를 작성해 온전히 내 것으로 정보를 습득하기 위해, 한번 정리를 해 보고자 한다. 오늘 정리할 내용은 제 1장, 빅데이터의 기초 지식이다. 내가 필요하다거나, 중요하다고 생각되는 부분만 정리하였다. (중간중간 내가 하고픈 이야기도 섞었다 하하) 목차 1. 분산 시스템에 의한 데이터 처리의 고속화 2. 빅데이터 기술 3. BI 도구와 모니터링 1. 분산 시스템에 의한 데이터 처리의 고속화 ..