데이터 공부/빅데이터 & 하둡

[책리뷰] 데이터 과학자 원칙

한소희DE 2023. 7. 2. 13:44
안녕하세요 한소희입니다. 회사에 들어온 새 책이 마침 '데이터 과학자 원칙'이라고 하길래, 냉큼 빌려왔습니다.
데이터 리더 9인이 말하는 더 나은 데이터 과학자로 살아가는 원칙과 철학, 데이터 과학자 원칙에 대한 리뷰를 해보려고 합니다.

 

 

 

01. 책 소개 

이 책은 23년 6월 1일 초판 1쇄 발행된 책으로, 데이터 리더 9인의 철학과 메시지를 담은 책이다.

각 저자가 중요하게 생각하는 내용을 챕터로 다룬 책으로, 어떤 분은 운영 지침을, 어떤 분은 팀워크의 중요성을, 어떤 분은 본질을 언급하시며 독자에게 메시지를 전달한다.

 


 

02. 리뷰

가장 인상깊은 키워드 중 하나는 "오컴의 면도날"이다.

'상황을 설명하는 여러 모델 중 가장 단순한 모델이 최선이다'라는 의미를 갖고 있는 메시지인데, 결론적으로 나는 이것을 '본질에 집중해야 한다'라는 메시지로 받아들였다.

 

물론 필요할 때에는 필요한 기술을 다루고 적용하는 것이 중요하지만, 단순한 아키텍처로 해결할 수 있는 상황에서도 굳이 이를 기술로서 해결하고자 하는 태도는 본질에 어긋날 수 있다는 생각이 들었다.

저자는 성과를 위한 새로운 지표 혹은 화려한 기술적 접근 등을 예시로 들었다. 

 

근본적인 우리의 목적 '비즈니스에 이바지하는 것'이다. 리소스를 잘 고려하여 '비즈니스에 더 나은 성과를 위하는 것' 이다.

관련해서 이전 팀장님께서 해주신 조언이 떠오르며, 이 궁극적인 목적을 잊지 말아야겠다는 생각을 하였다.

 

 

 

두 번째로, 결국은 '소통'이다라는 의미가 인상깊게 느껴졌다.

기술로 모든 것이 해결될 것 같지만, 사실상 데이터 관련 업무의 경우 '기술'로만 해결하는 것은 어렵다고 저자는 말한다.

비즈니스 로직을 잘 이해해야 하고, 기술로 표현되지 않는 해석 리터러시가 필요하다는 것이다. 나 또한 이 말에 공감하였다.

 

고도화된 알고리즘으로만 유의미한 아웃풋을 창출하기란 어렵다.

즉, 비즈니스가 돌아가는 환경을 이해해야 & 사업부가 원하는 의사결정 정보가 무엇인지를 인지하고 있어야 데이터 분석/처리에 빛을 발휘할 수 있다고 생각한다.

 

그렇게 암묵지와 같은 비즈니스 로직과 비즈니스 현황형식지와 같이 데이터로 녹여, 유의미한 알고리즘/분석 및 처리를 적절히 적용하는 것이 더욱 중요하다고 생각한다.

 

ML 혹은 고도화된 분석기법을 적용하여 현황을 해결하는 것보다, 비즈니스를 이해하여 단순한 모델부터 적용시켜 보는 것이 더욱 효과적인 방향일 수 있겠다는 생각이 들었다. 

 

그리고, 그러한 아웃풋에 대하여 전사가 신뢰를 갖기 위해서안정적인 데이터 드라이빙이 무엇보다 중요하고, 이것은 데이터 엔지니어 업무가 중요한 이유 중 하나라는 생각이 들었다.

 

 

 

또한, ETL을 통한 'BI를 효과적으로 구성하는 것'도 다른 형태의 소통이었음을 깨달았다.

 

나이팅게일이 병원 위생 문제를 공공연하게 알리고자 하였을 때 사람들이 크게 와닿아하지 않자, 나이팅게일은 장미 다이어그램을 사용하여 병원 위생의 문제를 사람들에게 효과적으로 잘 전달하였고, 그 결과 위생 문제를 개선할 수 있었다고 한다.

그로 인하여 병원 내 군인 사망률을 42%에서 2%로 크게 감소시켰다고 한다.

 

이처럼 BI를 구성하는 것도, 기업의 현황에서의 문제와 데이터가 전달하는 메시지를 회사에 효과적으로 전달(구성)하는 소통 업무를 하고 있는 것이구나 라는 관점을 얻게 되었다.

 

그렇게 생각하니, 내가 지금껏 해온 일에 사명감이 들었다.

 

 

 

더불어, 업무를 수행하기 위해서는 협업도 필요하고, 테스트 코드도 중요하고, 필요하다면 문서 작성도 중요하다.

해당 책에서는 '문서화와 같은 작업 또한 기술부채에 해당할 수 있다'고 언급한다.

 

특히 문서 작성은 가끔 개발자들에게 '잡일' 취급을 받고는 하는데, 나는 그것을 '잡일'이라고 생각하기보다는, 내 코드를 누군가에게 효과적으로 전달하는 매개체 그리고 커뮤니케이션 리소스를 감소시킬 수 있는 도구라고 생각한다.

가령 코드를 효과적으로 작성하더라도, 해석이 어렵거나 접근성이 낮아 사용을 하지 않는다면 의미가 없지 않은가. 올해 상반기에 읽은 '파이썬 클린코드'에서도, docstring의 중요성을 언급하였는데, 해당 내용이 떠올랐고, 공감이 되는 대목이었다.

 

 

결론적으로 이 책의 내용에서 전달하는 메시지를 요약하자면,

근본적인 목적은 비즈니스의 개선이며, 목적 달성을 위해서 다짜고짜 소 잡는 칼을 먼저 꺼내지 않아도 생각보다 단순하게 해결이 될 수도 있다라는 것, 그리고 이러한 업무를 위해서는 결국은 (팀 내 그리고 팀 외) 커뮤니케이션과 해석이 근간이다라는 것이었다. 

 

물론 이 외에도 개인의 성장이나, 개발자로서의 삶 방향성까지 생각해 볼 수 있는 챕터가 다루어져 있다.

 

 

이 책을 읽으며, 각 다른 9인의 데이터 리더 분들께서 말씀하시는 것의 궁극적인 본질은 유사하다라는 공통점을 찾았다. 그래서, 나도 그들의 메시지를 잊지 않으며, 먼 훗날 이러한 데이터 리더가 될 수 있도록 조금씩 성장해야겠다는 다짐을 하게 되었다.

 

 

 

 

 

 

 

+ 9인 중, 현재 글또 운영자이신 변성윤 님이 저자로 계신 것은 알고 있었지만 책을 통해 뵈니 너무 반가웠고,

김진환 님의 얼굴이 낯이 익다 (!). 내 기억 상 캠프를 통해 진환님께 교육을 받았었던 것으로 기억하는데, 진환님도 저자로 계셔서 정말 반가웠다.