한소희 개발일지

  • 홈
  • 태그
  • 방명록

kafka consumer 1

스트리밍 데이터 기반 AI 모델 처리에 대한 고민 (1) 람다 아키텍처 활용

공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 데이터의 변경사항이 있을 때마다, 머신러닝 알고리즘을 돌리면 어떻게 될까? 매우 비효율적일 것이다. 그렇다고 1일 1회 정기 배치 업데이트를 하자니, 데이터의 변경 사항이 반영되지 않은 머신러닝 알고리즘을 쓸 수없는 환경일 수 있다. 이를 해결하기 위한 방법으로, 람다 아키텍처를 활용해보면 어떨까 하는 생각이 들었다. 요즘 개발하고 있는 머신러닝 모델은, 텍스트 벡터라이즈와 시밀러리티 연산이 필요하다. 따라서 만약 기존에 training 되지 않은 스트림 데이터가 카프카 컨슈머(Kafka Consumer)를 통해 인입되면, 머신러닝 알고리즘을 다시 돌려서 벡터라이즈하..

데이터 공부/Python 2022.09.04
이전
1
다음
더보기
프로필사진

한소희 개발일지

  • 카테고리 전체보기 (144)
    • 데이터 공부 (72)
      • 데이터베이스 & SQL (18)
      • Python (12)
      • Kubernetes (7)
      • Apache Airflow (11)
      • Kafka (2)
      • Spark (0)
      • 빅데이터 & 하둡 (15)
      • [교육] 기타교육 및 웨비나 (0)
      • [자격증] 빅데이터분석기사 (7)
    • 컴퓨터 사이언스 (CS) (25)
      • 운영체제 (7)
      • 자료구조 및 알고리즘 (10)
      • 네트워크 (2)
      • Docker & Git (6)
    • 개인(팀) 프로젝트 (23)
      • 해상물류 통합 데이터 플랫폼 프로젝트 (6)
      • 기타 프로젝트 & 활동 (10)
      • 유실유기동물 웹사이트 개발 프로젝트 (6)
      • 블록체인 (0)
    • 매일매일 발전일지 (18)

Tag

설치, 개념, 오류, 방법, SQL, 데이터엔지니어, kubernetes, 스파르타코딩클럽, 데이터 엔지니어, 해결, 던리스트, 데이터, 운영체제, 에어플로우, MySQL, 파이썬, Python, 에러, airflow, 취준생,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/05   »
일 월 화 수 목 금 토
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바