방법 38

02. CentOS에 JAVA 설치 + 에러 해결

목차 가상 머신에 JDK 설치하는 방법 가상 머신 내 JDK 환경변수 설정 방법 01. 가상 머신에 JDK를 설치하는 방법 이전 포스팅에서 가상 머신에 CentOS를 설치를 수행했으니, 이번엔 JAVA를 설치하자. 나는 가상 머신(VM)은 버추얼박스를 사용했다. Spark를 설치하는 데에 JAVA를 선 설치해야 하는 이유? Spark를 구동하려면 JAVA 언어가 필요하기 때문! JAVA를 설치하는 방법은 매우 쉽다. yum install java-1.8.0-openjdk yum install java-1.8.0-openjdk-devel 위와 같은 명령어를 CentOS 내 터미널에 기입하면 되기 때문이다. 1-1. superuser 에러 하지만... 여기서 문제가 발생할 때가 있다. ❓❗ 에러 살펴보기 t..

03. 로그 시뮬레이터 설치

오늘은 로그 시뮬레이터를 설치해 볼 것이다. 사실 로그 시뮬레이터는 강의에서 이미 만들어진 것을 가져와, 파일 질라를 통해 업데이트하고 잘 업데이트가 되었는지 확인하는 것이 전부다. 따라서 비교적 간단한 작업에 속한다. 하지만 이 개념을 이해하는게 처음에는 힘들었다. 로그 시뮬레이터가 대체 뭔가 싶기도 했고, 이걸 내가 직접 만들어보고 싶은데 어떻게 만들어야 할지를 고민하고 생각하며 임하다 보니 조금 더 버벅거렸던 것 같다. 그럼 한번, 로그시뮬레이터를 설치하고 잘 설치되었는지 확인하는 작업을 해보겠다! 목차 로그 시뮬레이터 설치 01. 로그 시뮬레이터 설치 우리는 Server02에 로그 시뮬레이터를 설치할 것이다. 1-1. 로그시뮬레이터, 로그파일 설치될 파일 만들기 나는 pilot-pjt 폴더 안에 ..

01. 가상머신 설치 후 CentOS 설치 + 아파치 스파크란?

목차 아파치 스파크란 스파크 실행 01. 아파치 스파크란 데이터 읽기부터 SQL 처리, 머신러닝 그리고 스트림처리에 이르기까지 다양한 데이터 분석 작업을 일관성있는 API로 수행할 수 있도록 설계한 빅데이터 처리 시스템 왜 하둡이 아닌 스파크를 쓰는 걸까? 스파크는 애초에 하둡을 보완하기 위해(혹은 함께 사용하기 위해) 개발되어 하둡을 대신한다고 보긴 어렵다. 하지만 하둡에서 맵리듀스를 대체할 수는 있다. ⬇ 참고: 이전 포스팅 링크 https://eng-sohee.tistory.com/34 03. 빅데이터의 분산 처리 이번에는 시각화에 적합한 데이터 마트를 구축하는 것을 목적으로, 분산 시스템에 의한 데이터 처리의 기본적 흐름에 관해 설명해보겠다. 새로운 개념이 화수분처럼 쏟아지고, 유사한 개념이 en..

01. 도커란 무엇인가?

데이터 엔지니어를 준비하며, 도커 학습의 필요성을 종종 들어왔다. 그러던 중, 이번에 쬰과 함께 전주시 빅데이터 공모전 준비를 할 때, 플젝 후반부에서 쬰의 PC와 내 PC 사이의 간극을 좁히는 과정에서, 도커의 필요성을 직접적으로 느꼈다. 이번 해상물류 프로젝트를 할 때는, 어김없이 도커가 필요할 것 같았기 때문에, 이번 프로젝트에서는 팀원들과 함께 도커를 쓰기로 먼저 약속을 했다. 플젝을 하며 자유자재로 도커를 활용하고자 공부를 해야만 한다. (세상은 넓고 할 공부는 많다.) 그래서 오늘부터 도커 공부에 돌입했다! 아자아자 화이팅! 🔥🔥🔥 목차 도커란 무엇인가? 도커를 사용할 때의 흐름 기존의 기술, 가상화, 도커 01. 도커란 무엇인가? 컨테이너를 사용해 응용 프로그램을 더 쉽게 만들고 배포하고 실..

01. SQL - DBeaver 설치 방법 및 사용법

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 오늘은 본격적으로 SQL을 공부하기에 앞서, DB에 접근해 SQL 쿼리문을 작성하고, 원하는 데이터를 출력하기 위해 필요한 툴(=Dbeaver)을 설치해 볼 것이다. 설치 방법도 간단하고, DBeaver 프로그램 사용 방법도 비교적 간단하기 때문에, 어렵지 않게 환경을 세팅할 수 있었다. 그럼 본격적으로, 포스팅을 시작해보도록 하겠다. 목차 DBeaver란? DBeaver 설치 방법 DBeaver 사용 방법 01. DBeaver란? DBeaver란, 다양한 데이터베이스를 쉽게 관리할 수 있는 툴이다. MySQL, PostSQL, ..

02. 하둡(Hadoop) 활용한 스마트카 파일럿 프로젝트_VM 통합환경 구성

나는 오늘, 하둡을 활용한 스마트카 파일럿 프로젝트를 수행하기 위해 필요한 VM을 생성할 것이다. 앞서, 어떤 데이터셋을 활용해 어떤 레이어를 구축할 지 간단하게 정리한 포스팅이 있는데, 이를 읽어본다면 오늘 포스팅의 내용을 더 수월히 이해할 수 있을 것이다. ⬇ 이전 포스팅 참고 링크 01. 하둡(Hadoop) 활용한 스마트카 파일럿 프로젝트_개요 오늘부터는 대망의, 데이터 엔지니어링 파일럿 프로젝트를 진행 할 것이다! 이번 스마트카 파일럿 프로젝트에 대해 간단히 설명하겠다. 이번 프로젝트는 인프런의 강의를 참고하여, 데이터 수 eng-sohee.tistory.com 그럼 오늘의 포스팅을 시작하도록 하겠다! 목차 VM 통합환경 구성 개요 필요한 설치 프로그램 설명 리눅스 가상머신 설정 01. VM 통합..

04. String Manipulation

String Manipulation이란, 문자열 데이터 형태 및 타입 등을 변환하는 것 오늘은 파이썬을 활용해 String Manipulation을 수행해 볼 것이다. 이는 데이터 분석 수행에서 필수적으로 행하는 것 중 하나다. String 데이터를 처리할 때는, 웬만해선 데이터 통일화 작업이 요해지기 때문이다. 그 중에서도 SM에 가장 많이 쓰이는 함수(Replace, Apply, Split)를 이용해 문자열 데이터의 형태 & 타입을 변환하는 예시를 학습/정리할 예정이다. 목차 특정 데이터타입의 컬럼값만 추출하여, 데이터 형태 및 타입 변경 describe를 통한 summary statistics In [ ]: # 필요한 라이브러리를 import 합니다. import pandas as pd import..

05. map 에러 해결 방법

목차 Map Map 에러발생 01. Map Map은 파이썬의 내장함수로, 리스트의 요소를 지정된 함수로 처리해주는 함수다. 이는 매우 자주 사용되며, 예시는 아래와 같다. 그런데, 사실 내가 map을 설명하는 이유는 아래 에러설명을 위해서다. (내가 자주 까먹기 때문에...!)예시(아래)와 같이 코드를 작성하면 TypeError가 발생한다. 02. Map 에러발생 ⚠️ TypeError: map() must have at least two arguments. 2-1. 에러발생코드 def solution(num): num_square = list(map(lambda x: x*x, num) ) print(num_square) answer=[] for i in num_square: if i % 2 == 0: ..