데이터 공부 72

02. CentOS에 JAVA 설치 + 에러 해결

목차 가상 머신에 JDK 설치하는 방법 가상 머신 내 JDK 환경변수 설정 방법 01. 가상 머신에 JDK를 설치하는 방법 이전 포스팅에서 가상 머신에 CentOS를 설치를 수행했으니, 이번엔 JAVA를 설치하자. 나는 가상 머신(VM)은 버추얼박스를 사용했다. Spark를 설치하는 데에 JAVA를 선 설치해야 하는 이유? Spark를 구동하려면 JAVA 언어가 필요하기 때문! JAVA를 설치하는 방법은 매우 쉽다. yum install java-1.8.0-openjdk yum install java-1.8.0-openjdk-devel 위와 같은 명령어를 CentOS 내 터미널에 기입하면 되기 때문이다. 1-1. superuser 에러 하지만... 여기서 문제가 발생할 때가 있다. ❓❗ 에러 살펴보기 t..

01-1. VirtualBox VM 설치 에러 해결

아래 에러(Error) 해결 방법을 다룬 포스팅이다. ! boot with apic=debug and send a report. Then try booting with the'noapic' option. 버츄얼 박스 설치를 하던 중, VM에 CentOS가 제대로 설치되지 않았다. 나는 당연히 부팅이 되고 있는 줄 알고 기다렸는데 ㅋㅋ너무 오래 걸려서 읽어보니 에러였던 것! 그래서 01에서 다루기에는 너무 글 양이 많아질 것 같아서, 01-1로 빼 정리해보려고 한다. 에러 사진은 아래와 같다. ❓❗ 에러(Error) ! boot with apic=debug and send a report. Then try booting with the'noapic' option. 에러를 해결하기 위해 찾아보니, 두 가지 ..

01. 가상머신 설치 후 CentOS 설치 + 아파치 스파크란?

목차 아파치 스파크란 스파크 실행 01. 아파치 스파크란 데이터 읽기부터 SQL 처리, 머신러닝 그리고 스트림처리에 이르기까지 다양한 데이터 분석 작업을 일관성있는 API로 수행할 수 있도록 설계한 빅데이터 처리 시스템 왜 하둡이 아닌 스파크를 쓰는 걸까? 스파크는 애초에 하둡을 보완하기 위해(혹은 함께 사용하기 위해) 개발되어 하둡을 대신한다고 보긴 어렵다. 하지만 하둡에서 맵리듀스를 대체할 수는 있다. ⬇ 참고: 이전 포스팅 링크 https://eng-sohee.tistory.com/34 03. 빅데이터의 분산 처리 이번에는 시각화에 적합한 데이터 마트를 구축하는 것을 목적으로, 분산 시스템에 의한 데이터 처리의 기본적 흐름에 관해 설명해보겠다. 새로운 개념이 화수분처럼 쏟아지고, 유사한 개념이 en..

04. SQL- Group By와 Order By (A.K.A 2주차 수업 정리)

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 목차 Group By란 Order By란 Group By와 Order By - 타 문법과의 활용 과제 풀이 01. Group By란 Group By란, 기준 속성으로 묶는 것을 말한다. 아래 코드 예시를 보면 더욱 이해가 잘 된다. 아래 코드 설명은 아래와 같다. users 테이블에서 'name' 속성으로 group by(=이름별로 묶음) 뒤, 각각의 개수를 세어보자. # 1. users에서 2. group by한 뒤, 3. select select name, count(*) from users group by name ❓❗ 그럼..

03. SQL- SELECT 절의 활용 (A.K.A 1주차 수업 정리)

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 나는 요즘 스파르타 코딩 클럽 - 엑셀보다 쉬운 SQL 수업을 수강 중이다. 내가 왜, 스파르타코딩클럽의 엑셀보다 쉬운 SQL 수업을 듣게 됐는지는 아래 이전 포스팅 링크를 통해 알 수 있다. 스파르타코딩클럽은 데이터 조작어(DML)를 중심으로 수업을 진행한다. 그래서 우선적으로, DML을 중심으로 학습한 뒤 추후 DDL이나 DCL을 개별적으로 공부할 것이다. 오늘은 1주차 수업을 모두 마치고, SQL 문의 SELECT 절을 이용하고, 다른 쿼리 문과 결합하여 활용하는 방법까지 복습해보도록 하겠다. 목차 SELECT와 WHERE ..

01. SQL - DBeaver 설치 방법 및 사용법

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 오늘은 본격적으로 SQL을 공부하기에 앞서, DB에 접근해 SQL 쿼리문을 작성하고, 원하는 데이터를 출력하기 위해 필요한 툴(=Dbeaver)을 설치해 볼 것이다. 설치 방법도 간단하고, DBeaver 프로그램 사용 방법도 비교적 간단하기 때문에, 어렵지 않게 환경을 세팅할 수 있었다. 그럼 본격적으로, 포스팅을 시작해보도록 하겠다. 목차 DBeaver란? DBeaver 설치 방법 DBeaver 사용 방법 01. DBeaver란? DBeaver란, 다양한 데이터베이스를 쉽게 관리할 수 있는 툴이다. MySQL, PostSQL, ..

04. DB - 데이터 모델링

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 목차 데이터 모델링 개념 개념적 모델링 논리적 모델링 01. 데이터 모델링 개념 데이터 모델링이란, 현실 세계에 존재하는 데이터를 컴퓨터 세계의 데이터베이스로 옮기는 변환 과정 예를 들어, 코끼리(현실 세계 데이터)를 데이터베이스로 정보를 저장한다고 가정하자. 우리는 1) 개념적 모델링 2) 논리적 모델링을 거쳐야 한다. 1) 첫 번 째로, 코끼리의 정보를 문서화한다. 예를 들어, '발이 4개, 몸무게는 1톤 이상' 등으로 정리할 수 있겠다. 두 번째로, 논리적 모델링을 수행한다. 기술한 정보를, 데이터베이스의 논리적 구조로 표현..

03. 빅데이터의 분산 처리

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 이번에는 시각화에 적합한 데이터 마트를 구축하는 것을 목적으로, 분산 시스템에 의한 데이터 처리의 기본적 흐름에 관해 설명해보겠다. 새로운 개념이 화수분처럼 쏟아지고, 유사한 개념이 머릿속을 헤집어 정리하는데 비교적 상당한 시간이 소요되었던 부분이다. 하지만 머릿속으로 개념을 정리하니, 평소 궁금했던 질문들이 한결 해소되었다. 그럼, 분산 시스템에 의한 데이터 처리의 기본적 흐름에 대해 포스팅을 시작하겠다. (나름 열심히 포스팅을 진행했지만, 저도 공부를 하며 정리한 내용이므로 중간에 오류가 있을 수 있습니다. 혹여 게시물에 이슈..

05. 데이터 시각화

파이썬에서 데이터를 시각화하는 방법은 여러 방법이 존재한다. 우선, 라이브러리도 seaborn 이나 matplotlib 와 같은 대표적 시각화 툴이 있고, 아니면 shap이나 pdp와 같이, 모델링 이후 시각화를 할 때 사용하는 라이브러리 등이 존재한다. 오늘은 다양한 라이브러리들 중, 가장 범용적으로 사용하는 seaborn과 matplotlib 정리를 해 보았다. 히트맵, box플롯, scatter플롯, FacetGrid 차트 등 자주 사용하는 차트들을 살펴 보겠다. 막대 그래프 등은 너무 단순해서 이번 포스팅에서는 취급하지 않았지만, 추후 모델링 시 포스팅 할 예정이다. 또한 pdp나 shap 과 같은 시각화 라이브러리는, 자주 사용하지는 않으므로 이번 포스팅에서 다루지 않는다. 그러나 이후 모델 분..

04. String Manipulation

String Manipulation이란, 문자열 데이터 형태 및 타입 등을 변환하는 것 오늘은 파이썬을 활용해 String Manipulation을 수행해 볼 것이다. 이는 데이터 분석 수행에서 필수적으로 행하는 것 중 하나다. String 데이터를 처리할 때는, 웬만해선 데이터 통일화 작업이 요해지기 때문이다. 그 중에서도 SM에 가장 많이 쓰이는 함수(Replace, Apply, Split)를 이용해 문자열 데이터의 형태 & 타입을 변환하는 예시를 학습/정리할 예정이다. 목차 특정 데이터타입의 컬럼값만 추출하여, 데이터 형태 및 타입 변경 describe를 통한 summary statistics In [ ]: # 필요한 라이브러리를 import 합니다. import pandas as pd import..