전체 글 144

04. DB - 데이터 모델링

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 목차 데이터 모델링 개념 개념적 모델링 논리적 모델링 01. 데이터 모델링 개념 데이터 모델링이란, 현실 세계에 존재하는 데이터를 컴퓨터 세계의 데이터베이스로 옮기는 변환 과정 예를 들어, 코끼리(현실 세계 데이터)를 데이터베이스로 정보를 저장한다고 가정하자. 우리는 1) 개념적 모델링 2) 논리적 모델링을 거쳐야 한다. 1) 첫 번 째로, 코끼리의 정보를 문서화한다. 예를 들어, '발이 4개, 몸무게는 1톤 이상' 등으로 정리할 수 있겠다. 두 번째로, 논리적 모델링을 수행한다. 기술한 정보를, 데이터베이스의 논리적 구조로 표현..

03. 빅데이터의 분산 처리

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 이번에는 시각화에 적합한 데이터 마트를 구축하는 것을 목적으로, 분산 시스템에 의한 데이터 처리의 기본적 흐름에 관해 설명해보겠다. 새로운 개념이 화수분처럼 쏟아지고, 유사한 개념이 머릿속을 헤집어 정리하는데 비교적 상당한 시간이 소요되었던 부분이다. 하지만 머릿속으로 개념을 정리하니, 평소 궁금했던 질문들이 한결 해소되었다. 그럼, 분산 시스템에 의한 데이터 처리의 기본적 흐름에 대해 포스팅을 시작하겠다. (나름 열심히 포스팅을 진행했지만, 저도 공부를 하며 정리한 내용이므로 중간에 오류가 있을 수 있습니다. 혹여 게시물에 이슈..

03. 할 몫을 해내기

01. Done List [공부] [자료구조 및 알고리즘] DFS 알고리즘 10문제 풀기 & 정리하기 [5시간] [공부] [빅데이터] 3장 정리 및 복습 1/2 [1시간 30분] [일정] [파이썬 알고리즘 스터디] 20:00 PM [타 팀원들 프로젝트로 인한 일정 취소] [일정] [스마트 해상물류 스터디] 21:00 PM [타 팀원 시험기간으로 인한 일정 취소] 02. 오늘의 저녁일기 얼른 자자. 별 것 안한 것 같은데 돌아보니 또 새벽이다. 알고리즘 문제가 생각보다 어려워서, 10문제를 푸는 데에 시간이 꽤 오래 걸렸다....흡. DFS 복습 열심히 해야지. 그리고 오늘 아침 아빠 다치셔서 치료해주다보니 시간이 더더욱 금세 갔던 것 같다. 내일 아침 일찍 일어나야 하는데, 벌써부터 큰일이다. 오늘은 꼭..

02. 조금씩 성장하기

오늘의 날짜: 2021년 06월 05일 01. 오늘의 아침 감사일기 '쉽게 배우는 운영체제' 책 첫 공부 날! 이 책이 궁금해서 5시간 자고 눈이 절로 떠졌다. 원하는 공부를 원하는 시간에 할 수 있도록, 현재 내게 많은 시간이 주어진 것에 대해 감사하다. 궁금하면 쉬이 잠 못 이루는 성격인지라, 아침 댓바람부터 일어나 책을 펼쳤다. 졸린 눈 비비고 있지만, 얼른 내 할 일 해야지. 이따가 할머니 병원에 병문안도 가려면 할 일을 빨리 끝내 놓아야 한다. 한 달 정도, 매주 토요일마다 병문안을 간다. 다른 손녀 손자 다 생각 않고 우리 자매 보고 싶다고 하는 외할머니. 건강할 때 더 챙겨드리지 못해 내내 마음이 좋지 않았지만, 지금 돌아가시기 전에라도, 얼굴이라도 자주 비추려고 한다. 오늘은 공부와 할 일..

01. 계획과 마음가짐

오늘의 날짜: 2021년 06월 04일 01. 오늘의 아침 감사일기 식구와 함께 맞는 여유로운 오전, 그리고 따뜻한 날씨에 감사하다. 어제는 비가 오더니, 날이 개었다. 아침부터 산뜻한 출발이다. 게다가, 엄마랑 평일 오전을 함께 보내는 게 얼마 만인지. 할머니의 오후 병원 때문에 연차를 내신 엄마는, 오전에도 밀린 집안일을 해야겠다며 쉬지 않고 바지런히 청소 중이다. 나도 일기를 다 쓰고, 나가서 집청소를 함께 해야겠다. 묵은 먼지도 탈탈 털고, 엄마랑 같이 시장도 봐야지. 평소보다 아주 조금은, 특별한 하루가 될 것 같다. 02. 오늘의 Done List [공부] [하둡] 스마트카 플젝 VM 환경설정한 부분 복습&정리 [공부] [빅데이터] 빅데이터를 지탱하는 기술 3장 2회차 학습 [일상] [택배] ..

02. 하둡(Hadoop) 활용한 스마트카 파일럿 프로젝트_VM 통합환경 구성

나는 오늘, 하둡을 활용한 스마트카 파일럿 프로젝트를 수행하기 위해 필요한 VM을 생성할 것이다. 앞서, 어떤 데이터셋을 활용해 어떤 레이어를 구축할 지 간단하게 정리한 포스팅이 있는데, 이를 읽어본다면 오늘 포스팅의 내용을 더 수월히 이해할 수 있을 것이다. ⬇ 이전 포스팅 참고 링크 01. 하둡(Hadoop) 활용한 스마트카 파일럿 프로젝트_개요 오늘부터는 대망의, 데이터 엔지니어링 파일럿 프로젝트를 진행 할 것이다! 이번 스마트카 파일럿 프로젝트에 대해 간단히 설명하겠다. 이번 프로젝트는 인프런의 강의를 참고하여, 데이터 수 eng-sohee.tistory.com 그럼 오늘의 포스팅을 시작하도록 하겠다! 목차 VM 통합환경 구성 개요 필요한 설치 프로그램 설명 리눅스 가상머신 설정 01. VM 통합..

01. 하둡(Hadoop) 활용한 스마트카 파일럿 프로젝트_개요

오늘부터는 대망의, 데이터 엔지니어링 파일럿 프로젝트를 진행 할 것이다! 이번 스마트카 파일럿 프로젝트에 대해 간단히 설명하겠다. 이번 프로젝트는 인프런의 강의를 참고하여, 데이터 수집부터 적재 & 처리 및 탐색 & 분석 및 응용작업까지 진행해 보는 프로젝트다. 직접 대규모 처리 프로세스를 구현해보기 전, 이 강의를 통해 파일럿 프로젝트를 수행해보려 한다. 인프런 강의는 아래와 같다. 15일간의 빅데이터 파일럿 프로젝트 - 인프런 | 강의 AI에 생명력을 불어 넣는 빅데이터의 모든 과정들을 파일럿 프로젝트 형식으로 진행 하며, 완성된 빅데이터 플랫폼 위에서 다양한 데이터 탐색과 머신(딥)러닝 분석을 수행 합니다., 15일에 끝장 www.inflearn.com 🔥 이전까지의 프로젝트와 이 프로젝트의 차이점..

05. 데이터 시각화

파이썬에서 데이터를 시각화하는 방법은 여러 방법이 존재한다. 우선, 라이브러리도 seaborn 이나 matplotlib 와 같은 대표적 시각화 툴이 있고, 아니면 shap이나 pdp와 같이, 모델링 이후 시각화를 할 때 사용하는 라이브러리 등이 존재한다. 오늘은 다양한 라이브러리들 중, 가장 범용적으로 사용하는 seaborn과 matplotlib 정리를 해 보았다. 히트맵, box플롯, scatter플롯, FacetGrid 차트 등 자주 사용하는 차트들을 살펴 보겠다. 막대 그래프 등은 너무 단순해서 이번 포스팅에서는 취급하지 않았지만, 추후 모델링 시 포스팅 할 예정이다. 또한 pdp나 shap 과 같은 시각화 라이브러리는, 자주 사용하지는 않으므로 이번 포스팅에서 다루지 않는다. 그러나 이후 모델 분..

04. String Manipulation

String Manipulation이란, 문자열 데이터 형태 및 타입 등을 변환하는 것 오늘은 파이썬을 활용해 String Manipulation을 수행해 볼 것이다. 이는 데이터 분석 수행에서 필수적으로 행하는 것 중 하나다. String 데이터를 처리할 때는, 웬만해선 데이터 통일화 작업이 요해지기 때문이다. 그 중에서도 SM에 가장 많이 쓰이는 함수(Replace, Apply, Split)를 이용해 문자열 데이터의 형태 & 타입을 변환하는 예시를 학습/정리할 예정이다. 목차 특정 데이터타입의 컬럼값만 추출하여, 데이터 형태 및 타입 변경 describe를 통한 summary statistics In [ ]: # 필요한 라이브러리를 import 합니다. import pandas as pd import..

07. 파이썬을 활용한 문제해결

오늘은 파이썬을 활용한 문제 해결 방법을 간단히 살펴보고자 한다. 앞서 내가 주로 사용하는 파이썬 언어는 어떤 언어인지 살펴볼 것이다. 목차 정규표현식(=정규식) 얕은 복사와 깊은 복사 파이썬 01. 정규표현식(=정규식) 정규표현식이란, 특정한 규칙을 가진 문자열의 집합을 사용하는 데에 표현하는 언어다. 주로 복잡한 문자열을 처리할 때 사용한다. 정규표현식의 예시는 무엇이 있을까? 예를 들어, 주민등록번호 뒷자리 7자리를 별표(*) 처리하고 싶다고 할 때, 정규표현식을 사용한다면 보다 간편하고 직관적인 코드를 짤 수 있다. 정규표현식의 더 많은 예시로는, 아래 링크를 걸어두도록 하겠다. https://wikidocs.net/1642 파이썬에서는 이런 정규표현식을 re 모듈로 지원하는데, 딥러닝(텍스트마이..