데이터 공부/Python

03. 데이터 셋 병합 (Concat, Merge)

한소희DE 2021. 6. 1. 23:45

안녕하세요 한소희입니다. 공부를 통해 배운 내용을 작성하고 있습니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조치하도록 하겠습니다. 감사합니다.

 

 

데이터 분석을 할 때면, 데이터 셋을 병합해야 하는 일이 종종 생긴다. 

왜냐하면 대부분의 데이터셋은 예쁘게 한 개의 세트 형태로 제공되지 않기 때문이다.

 

물론, 캐글이나 데이콘 같은 곳에서 제공하는 데이터는 예쁘게 잘 정제되어 있지만,

실제 현업에서 마주하는 데이터는 그렇지 않다.

(어쩌다 알게 되었냐고요? 저도 알고 싶지 않았습니다.. 따흑. 데이터 처리 스킬이 부족한 시절, 실습생 때 데이터 셋을 병합할 때 꽤나 골머리를 앓았던 것으로 기억한다. 데이터의 무결성 이슈 때문에..)

 

여튼, pandas에서는 이 데이터들을 병합하는 방법에서 merge와 concat 개념을 반드시 알아두어야 한다. 이들은 개념이 유사하면서도 다르기 때문에, 아래 정리한 내용을 숙지하여 적재적소에 활용하자.

 

 

Concat / Merge의 활용 방법

  • concat 활용1 : 데이터셋 세로 병합
  • concat 활용2 : 데이터셋 가로 병합
  • merge : 데이터셋 가로 병합

Concat, Merge 차이점

  1. Concat은 다수의 데이터셋을 한 번에 병합 가능하나, Merge는 2개의 병합만 가능
  2. Merge는 'how'를 이용해 비교적 다양한 조건 별 데이터셋 병합이 가능

 

 

이제 본격적으로, merge와 concat을 어떻게 사용하면 되는지 basic한 활용 방법을 기록해보겠다.

 

 

 

 

 

 

목차

데이터셋 로드

concat 활용

merge 활용