오류 7

Pandas - 고객 구매 데이터 데이터 전처리 연습

목차 데이터셋 설명 분석 코드 01. 데이터셋 설명 데이터는 캐글에서 제공하는 고객 구매 데이터를 사용했다. 링크는 아래와 같다. https://www.kaggle.com/vjchoudhary7/customer-segmentation-tutorial-in-python Mall Customer Segmentation Data Market Basket Analysis www.kaggle.com 해당 데이터의 경우, 고객이 특정 몰에서 구매한 데이터 200 raw로 구성돼 있다. 각 칼럼값은 총 4개이며, 컬럼은 아래와 같다. CustomerID (고객ID) Age (나이) Annual Income (k$) (연간 수입) Spending Score (1-100) (지출 지수) 02. 분석 코드 2-1. dat..

Git Push & Clone 오류 원인 - repository 인증 정책 변경

Git의 보안 이슈 때문에, 레포지토리 접근 시 인증 방법이 8월 13일 이후로 변경됐다. 어쩐지 원래였으면 username과 password만 쓰면 잘 pull & clone 되던 것들이 실행되지 않았다. 아래처럼 에러가 떠서, 안내해준 github docs로 접근해보았다. 공식 레퍼런스 링크 Set up Git - GitHub Docs To use Git on the command line, you'll need to download, install, and configure Git on your computer. You can also install GitHub CLI to use GitHub from the command line. For more information on GitHub CLI, ..

AWS EC2 & RDS '인스턴스를 찾을 수 없음' 오류 해결

AWS에 EC2 서버 배포하고 잘 Postgresql 생성도 했는데 왜 인스턴스를 찾을 수 없다고 나오는지 답답했었다 ... 구글링을 해보니, 다른 사람이 내 인스턴스를 사용했을 수도 있다(?)고 하길래 순간 머리로 망치를 한 대 맞은 것 같았지만, 해결 방법은 생각보다 간단했다. https://aws.amazon.com/ko/premiumsupport/knowledge-center/find-ec2-instance/ 특정 EC2 인스턴스 찾기 Amazon Elastic Compute Cloud(Amazon EC2) 인스턴스를 시작했는데 Amazon EC2 콘솔에서 해당 인스턴스를 확인할 수 없습니다. 이 인스턴스는 어디에 있습니까? 다음은 콘솔에서 EC2 인스턴스를 확인하지 못하 aws.amazon.co..

카테고리 없음 2021.08.01

07. 플럼(flume)을 통한 빅데이터 수집

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다. 앞서 이번 프로젝트에서 우리는 working 파일 밑에 로그 시뮬레이터를 설치했다. draw.io로 그림을 그려보면 아래와 같다. 뭔가 그림이 이상한데 (?) ㅋㅋ 로그 시뮬레이터를 실행하면 거기서 나오는 데이터가, 만들어진 폴더에 각각 저장되는 시스템이다. 배치 로그 데이터는 SmartCar 폴더에, 리얼타임 로그 데이터는 driver-realtime-log에 저장된다. 앞선 포스팅을 보면 이해가 더욱 잘 된다. ⬇ 이전 포스팅 링크 https://eng-sohee.tistory.com/58 03. 로그 시뮬레이터 설치 오늘은 ..

04-1. 클라우데라 매니저 HDFS 에러 해결

앞서 ※ 4번째 포스팅에서, 클라우데라 매니저를 설치했는데 아래와 같은 오류가 났다... 설치와 동시에 HDFS에서 먹통이 일어난 것! ※ 4번째 포스팅 링크 04. 수집 요구사항 정의 + HDFS, 주키퍼 설치 및 실행 오늘은 우리의 프로젝트 수집 요구사항을 구체적으로 정의해보고, 수집에 필요한 프로그램 중 HDFS와 주키퍼를 설치해보는 실습을 해볼 것이다. 그리고, 간단한 HDFS와 주키퍼 실행을 공부해볼 것 eng-sohee.tistory.com 그래서 오류 해결을 하는 과정을 한번 포스팅에 담아보고자 한다! 찾아보니, 디스크공간부족, 하둡 네임 노드 통신에러, 권한 문제 등으로 인해 이렇게 나오는 것이라고 한다. 가장 유력한 원인은 하둡 네임 노드가 Safe Mode로 전환되어서라는데, 따라서 P..

01. 가상머신 설치 후 CentOS 설치 + 아파치 스파크란?

목차 아파치 스파크란 스파크 실행 01. 아파치 스파크란 데이터 읽기부터 SQL 처리, 머신러닝 그리고 스트림처리에 이르기까지 다양한 데이터 분석 작업을 일관성있는 API로 수행할 수 있도록 설계한 빅데이터 처리 시스템 왜 하둡이 아닌 스파크를 쓰는 걸까? 스파크는 애초에 하둡을 보완하기 위해(혹은 함께 사용하기 위해) 개발되어 하둡을 대신한다고 보긴 어렵다. 하지만 하둡에서 맵리듀스를 대체할 수는 있다. ⬇ 참고: 이전 포스팅 링크 https://eng-sohee.tistory.com/34 03. 빅데이터의 분산 처리 이번에는 시각화에 적합한 데이터 마트를 구축하는 것을 목적으로, 분산 시스템에 의한 데이터 처리의 기본적 흐름에 관해 설명해보겠다. 새로운 개념이 화수분처럼 쏟아지고, 유사한 개념이 en..

05. map 에러 해결 방법

목차 Map Map 에러발생 01. Map Map은 파이썬의 내장함수로, 리스트의 요소를 지정된 함수로 처리해주는 함수다. 이는 매우 자주 사용되며, 예시는 아래와 같다. 그런데, 사실 내가 map을 설명하는 이유는 아래 에러설명을 위해서다. (내가 자주 까먹기 때문에...!)예시(아래)와 같이 코드를 작성하면 TypeError가 발생한다. 02. Map 에러발생 ⚠️ TypeError: map() must have at least two arguments. 2-1. 에러발생코드 def solution(num): num_square = list(map(lambda x: x*x, num) ) print(num_square) answer=[] for i in num_square: if i % 2 == 0: ..