부제 : 길잡이 지식 - 도메인 지식(Domain Knowledge)을 향해서
퇴사를 하며. 어떤 데이터 분석가가 되고 싶은지 고민하다.
퇴사를 했다. 나는 작년(2023) 초에 10명 남짓의 작은 회사에서 신입 데이터 분석가로 일을 시작했다. 일은 재미있었지만 회사의 문화가 나와 맞지 않았다. 몇 번의 설득과 거쳤지만 내가 이 회사에 필요한 사람이라는 혹은 미래에 그런 인력이 될 수 있다는 확신이 들지 않았다. 지금 생각해 보면 작은 회사였기에 한 사람 한 사람에게 요구하는 것이 많았다. 처음이었기에 모르는 것들도 많았다. 퇴근 후 방통대 통계학과 수업을 들으며 많은 것을 맞춰가려 노력했다. 처음에는 알아가는 과정 자체가 즐거웠다. 부트 캠프를 수료한 후에는 계속 독학으로 취업 준비를 해왔기 때문에 머릿속의 지식들을 실무 현장에서 어떻게 써야 하는지를 몰랐다. 많은 것들이 구체화되었고 내가 무엇을 모르는지 그리고 무엇을 더 해야 할지 스스로 깨달을 수 있었다. 하지만 이는 내가 개인적으로 시간을 내서 공부를 하고 싶은 내용들이기에 불만은 없다. 문제는 거대 언어 모델이 발달한 미래에도 나에게 자리가 있을까? 하는 두려움이었다. LLM을 기초적으로 활용해 본 결과 기본적인 전처리와 모델링 정도는 무난하게 수행해 냈다. 물론 프롬프트를 상세하게 작성해야 하고 인풋 데이터의 형태와 아웃풋 데이터의 형태를 명확하게 지정해줘야 하는 한계점이 있긴 했다. 하지만 이런 단점은 데이터분석 전용 모델이 출시되거나 거대 모델이 어떤 형태로든 더 발전하면 가까운 미래에 해결될 문제들이라 느껴졌다. 그런 세계에 과연 신입 데이터 분석가의 자리는 있을까? 내가 발 디딜 장소를 만들기 위해 어떤 노력을 해야 할까?
나는 데이터분석 능력과 함께 특정 분야의 도메인 지식(Domain Knowledge)이 가지고 싶었다.
내가 속해있던 회사는 외부의 수주를 받아 작은 규모의 데이터 분석을 수행하는 회사였다. 대부분의 프로젝트들은 연구소나 정부에서 받아왔다. 그 해 들어 정부가 R&D 예산을 삭감하는 등 과학기술에 대한 투자를 줄이고 있었기 때문에 회사는 자연히 어려움에 처하게 되었다. 클라이언트들은 더 실력이 좋고 가격이 저렴한 업체를 수배했기 때문에 자연스레 입찰 경쟁이 발생했다. 많은 SI 업체들에서 발생하는 공통적인 비극이다. 일을 할 때는 한 번에 여러 개의 프로젝트를 쳐내야 했다. 매 프로젝트는 다른 도메인의 데이터로 진행되었고 데이터 및 프로젝트끼리의 연관성은 전혀 없었기 때문에 몇 번이고 머릿속의 스위치를 딸각거리며 모드를 바꿔야 했다. 다양한 분야의 데이터를 접할 수 있다는 건 항시 새로운 걸 학습하고 배워야 한다는 의미였다. 배우는 건 좋다. 다양한 경험을 쌓을 수 있으니까. 하지만 회사 일이라는 건 기한이 정해져 있기 때문에 필연적으로 깊이가 얕을 수밖에 없었다. 물론 해당 분야의 실무자와의 협업을 통해 프로젝트를 진행하긴 했다. 하지만 소통에는 한계가 있었다. 고객들은 ‘데이터 분석’이라는 단어의 울림을 좋아했지만 실질적으로 데이터 분석이 무엇인지는 몰랐기에 로우 데이터 덩어리를 던져놓고 무작정 ’의미‘를 찾아달라 요구할 때가 많았다. 이 데이터에서 ’무엇‘을 알고 싶은지 목표는 확실하지 않았다. 물론 데이터를 목적에 맞게 정제하고 EDA 과정 등을 통해 의미를 찾아내는 건 분석가의 역할이 맞다고 생각한다. 그 과정에서 데이터에서 찾아낸 인사이트를 공유하고 고객의 요구사항의 범위를 좁혀나가며 ‘소통’하는 것 또한 분석가의 역할일까? 환경에 따라 다르겠지만 작은 회사에서는 “그렇다.”라고 대답하고 싶다. 적어도 나는 그렇게 생각한다. 하지만 회사는 이를 ‘도메인 지식의 영역’이라 부르며 등한시하는 경우가 많았다. 우리는 통계적 지식과 다양한 분석 방법론을 사용하여 ‘분석’을 수행할 뿐 그것에서 의미를 찾는 건 고객의 역할이라는 말이었다. (지금 생각하면 적은 금액으로 굳이 거기까지 떠안고 싶지 않다는 표현인 것 같기도 하다.) 가령 이상탐지 모델을 개발 중이라 하자. 고객이 정제되지 않은 상태의 데이터를 DB에서 추출해서 주었다. 데이터 확인 결과 모델 Target으로 설정하기로 한 칼럼의 측정 기준이 모호하여 데이터의 정합성이 떨어지는 상태였다. ‘왜’ 모호해지는지는 이제 찾아내야 한다. 어떤 방식으로 선정된 데이터인지 착실하게 파헤칠 필요가 있다. 그러면 이 데이터의 정합성이 무엇인지 모델을 만들 때 왜 중요한지 고객에게 설명한다. 소통에는 필연적으로 오류가 발생한다. 고객은 기술적인 내용을 이해하는데 어려움을 겪을 수 있다. 그렇기에 재차 설명을 요구할 수도 있고 기술자 입장에서 보기에 ‘시간 낭비‘라 느껴지는 요구를 할 수 있다. 고객과 어떤 방식으로 소통을 할지에 대한 전략은 유동적일 수 있다. 고객이 꾸준하고 고집스럽게 요구를 한다면 고객의 니즈에 맞추기 위해 기술자의 의견을 피력하는 대신 그들의 요구를 들어주는 것도 고객과 좋은 관계를 유지하는 방법 중 하나일 수 있다. 하지만 요구를 전략적으로 수용하는 것과 애초에 협상 자체를 포기하고 모든 일을 들고 오는 건 다르다. 회사의 기조는 후자였고 200페이지가 넘어가는 기술통계 보고서를 만들게 하며 이 보고서에 의미를 찾아내는 건 ‘도메인 지식’의 영역이라 말했다. ’도메인 지식‘이 도대체 무엇이길래? ‘특정 분야에 대한 전문화된 지식’이라는 사전적 의미는 나에게 충분한 답을 주지 못한다. 단순히 데이터 명세서나 기술통계를 이해하거나 칼럼명이 무슨 의미인지 혹은 왜 그런 데이터를 수집하는지 등은 데이터분석가가 프로젝트를 시작하기 위해 기초적으로 이해해야 하는 내용이라 생각한다.
마침 블로그에서 현업 분석가가 올린 글을 읽을 수 있었다.
“데이터 분석가는 여러 가지 분석 방법론과 통계 분석, 예측을 통해 유의미한 결론을 도출하고자 합니다. 그런데 유의미한 결론에 이르는 과정에서 사람의 지식, 상식 그리고 때론 창의성도 필요하기도 합니다. 그 이유는 데이터가 객관적인 사실, 정보를 담고 있지만 그 안에 숫자로는 나타나지 않는 사람들의 심리적인 요소도 존재하기 때문입니다.”
“도메인 지식은 데이터로만 판단할 수 없는 영역을 채웁니다.”
금융 데이터를 분석할 때는 거래 프로세스, 수수료, 이자 등의 세부 로직과 도메인 용어에 익숙해야 하고, 제조 공정 데이터를 분석할 때는 공정 설비, 제조 프로세스, 공정 인력의 일하는 방식을 잘 이해해야 합니다.
이처럼 도메인 지식은 해당 분야에 대한 전문성, 경험 등을 모두 포함합니다. 이는 단순히 데이터로만 판단할 수 있는 영역이 아니기 때문에 늘 데이터 분석가에게 '도메인 지식'의 중요성이 강조될 수밖에 없는 것입니다.”
(출처 : https://blog.naver.com/bestinall/223323585208)
위의 글을 읽으면서 과거 토지 측량 데이터를 분석하는 과정에서 어려움을 겪었던 사례를 떠올릴 수 있었다. 학습한 모델이 새롭게 수집한 데이터의 답을 전혀 예측하지 못하자 이에 고객 측에서는 현업에서 직접 데이터 수집에 참여한 인터뷰어들의 의견을 들어보길 제안했다. 인터뷰를 통해 데이터와 현장 상황 간의 불일치를 발견했다. 과거에 설정된 데이터 수집 기준이 현 상황과 맞지 않아 수정이 필요하다는 지적이 있었다. 이러한 이슈들로 인해 프로젝트 기한이 한 달도 남지 않은 상황에서 대부분의 프로세스에 대한 재작업을 하게 되었다. 이 사례는 데이터 밖에서 사람들과의 상호작용을 통해서만 파악할 수 있는 문제였다. 데이터를 이해하기 위해선 결국 그 분야의 전문가가 되어야 했다. 데이터분석을 공부하겠다고 선언한 날 친구가 넌지시 해줬던 말이 떠오른다. “난 데이터분석을 공부한 사람이 도메인 지식을 익히나, 도메인 지식을 가진 사람이 데이터분석 기술을 익히나 별 차이가 없다고 봐. 사실 후자가 더 나을 수도 있어.” 사실 이 때는 LLM이 크게 대두되지 않은 시기였어서 친구의 말에 반만 수긍하고 말았다.
바퀴를 다시 발명할 필요는 없다.(Don't reinvent the wheel)
아마 내가 이미 기술적으로 능숙하거나 특정 분야의 전문가였다면 그 당시 직장에 직장에 남아있는 것도 나쁘지 않은 선택이었으리라 생각했다. 하지만 나는 갓 신입 데이터 분석가로 취업을 한 상태였고 배움에 대한 욕심이 많았으며 공격적인 성향이었다. 아무리 작은 프로젝트라로 정확하고 확실한 한 걸음에 투자를 하고 싶다는 열망이 강한 사람이었다. 도메인 지식에 대한 열망이 커지고 있는 상황에서 프로젝트마다 새로운 분야의 지식을 접해야 하는 건 나에게 치명적으로 느껴졌다. 프로젝트 단위가 길다면 괜찮았겠지만 불행히도 각 프로젝트들은 단발성으로 짧게 진행되는 경우가 많았다. 가끔 옆자리에 앉은 분이 진행하는 프로젝트로를 살펴볼 수 있었다. 그분은 고객 데이터 분석을 진행하고 있었는데 회사의 누구도 고객 데이터 분석에 대한 경험이 없는 상태였다. 그분들은 리서치를 진행하고 특정한 특징을 가지고 있는 사람들의 데이터들을 임의로 추출한 후 경향성을 살펴보는 등 가지고 있는 지식의 한계 범위 안에서 최선을 다했다. 하지만 고객은 결과에 불만족했다. 당연한 결과였다. 고객 데이터 분석에 대한 방법론은 이미 많은 연구자들에 의해 구체화되고 현장에서 쓰이는 것들이 많다. RFM 고객 세분화 분석 등이 그것으로 이미 이를 구현해 둔 다양한 마케팅 보조 사이트들이 존재한다. 이런 간단한 툴이 존재한다는 사실만 알면 데이터 시각화는 조금 더 수월했을지도 모른다. 대시보드 구현도 가능했을 것이다. '자동차를 만들기 위해 바퀴부터 다시 만들지 말라.’ 오래된 프로그래밍 격언이다. 이미 구현되어 있는 기능을 굳이 바닥부터 다시 만드는 건 에너지 자원 낭비다. 하지만 바퀴가 어디 있는지 모르는 사람은? 혹은 더 나아가 바퀴라는 게 존재하는지도 몰랐던 사람들은 어디서부터 시작해야 할까? 당시 나와 이 분이 처했던 상황을 비유하자면 답과 해법이 있는 미궁 속을 지도도 없이 탐험하는 것과 같다고 생각한다. 막막함. 내가 옳은 길을 가고 있는지조차 알 수 없는 상황에서 이는 어찌 되었든 회사의 일이기 때문에 성과를 좇아야 한다. 하지만 특정 분야에 대한 기본적인 지식이 없는 사람이 어떻게 데이터를 분석할 수 있겠는가? 내가 접했고 접할 모든 프로젝트가 지도 없는 미궁이라면?
나는 어떤 사람일까?
나는 아직 데이터 분석가로서의 능력치는 부족하지만 능력을 키우고 싶다는 욕망 자체는 큰 사람이다. 퇴사를 선택한 이유에는 많은 것들이 있겠지만 다른 곳에서 조금 더 ‘전문성’을 갖춘 데이터 분석가가 되고 싶다는 욕망 때문이었다. 전문성에는 물론 통계학적 지식 및 모델에 대한 이해도 있지만 이런 기술적인 부분 외에 ‘길잡이 지도’ 즉 ‘도메인 지식’을 얻고 싶다는 갈망이 컸다. 그렇다면 새로운 환경을 찾아 떠나는 게 맞다고 생각했다. 그렇다면 어디로 가야 할까. 기왕이면 자체 서비스를 가지고 있고 기획을 하는 회사에 가고 싶다. 데이터 분석을 통한 컨설팅 회사라도 컨설팅 분야가 정해진 회사에 가고 싶다. 데이터 분석가 및 사이언티스트는 같은 이름으로 불리지만 기업마다 하는 업무가 천차만별인 직업이다. 다양한 갈림길이 존재하고 어떤 길을 선택하냐에 따라 얻어야 하는 스킬 및 지식들이 조금씩 달라진다. 나는 ‘데이터리안’에서 운영하는 데이터분석가 단톡방에 속해 있었는데 그 안에서 사람들이 무엇을 하는지 단편적으로 접할 수 있었다. 많은 사람들이 인하우스 혹은 컨설팅 회사에서 데이터 분석가로 일하며 마케팅과 데이터 분석을 접목하여 사용하고 있었다. ‘퍼널’ , ‘코호트’, ‘A/B 테스트’ 등의 전문적 용어를 들어볼 수 있었고 이들은 취업 사이트의 데이터 분석가 잡 디스크립션에서도 쉬이 찾아볼 수 있는 단어였다. 이를 조금 더 찾아보니 ‘그로스해킹’ 및 ‘그로스 마케팅’이라는 개념을 접하게 되었다. <그로스 해킹 : 데이터와 실험을 통해 성장하는 서비스를 만드는 방법>의 저자는 아래와 같은 질문을 통해 담당하는 도메인을 깊게 이해할 수 있다 말한다.
- 우리 서비스는 어떤 카테고리에 속해있고, 경쟁자는 누구인가?
- 그 카테고리에 속한 서비스들은 어떤 특성이 있는가?
- 서비스 사용자는 누구이고, 어디에서 만날 수 있는가?
- 우리는 어떻게 돈을 벌고 있는가?
- 우리 서비스와 관련된 법이나 규제는 어떠한가?
- 우리 서비스 및 관련 카테고리는 지난 10년간 어떻게 발전해 왔는가?
(출처 : https://brunch.co.kr/@bluemarble/63)
특정 서비스나 물건을 판매하는 건 데이터 뭉치 망망대해를 파헤치며 ‘의미’를 찾아내기 위해 시간을 쓰는 것보다는 목적이 명확하다. 목적이 명확하면 어떤 데이터를 수집하고 어떻게 분석해야 하는지 또한 명확해진다. 인간의 욕망은 마르지 않는 샘과 같아서 이를 파악하기 위한 방법론과 기술에 대한 수요는 늘어나면 늘어나지 줄어들지는 않지 않을까? 사실 모른다. 경험하지 않았으니 짐작만 할 뿐 세세하게는 알 수 없다. 운이 좋게도 퇴사 후에 안랩샘아카데미에서 진행하는 데이터분석을 활용하는 그로스 마케팅 수업을 들을 수 있게 되었다. 꽁꽁 얼어붙은 취업 시장 위로 취준생으로서 다시 발을 내딛기 위해 어떤 신입이 되어야 할까?
어떤 데이터 분석가가 되고 싶은가?
글의 제목은 꽤나 거창하지만 뭐가 정답이다! 하고 결정하기보다는 나의 고민들과 사고의 흐름들을 꾹꾹 눌러 담고 싶었다. 웹에 공개하면 어디선가 나와 비슷한 고민을 하는 사람을 만날 수도 있고 의견을 나눌 수도 있지 않을까 하는 그런 기대감도 있다. 나보다 경험이 많은 사람이 읽는다면 우습고 치기 어린 글로 읽힐 수도 있겠지만 그것도 그것대로 좋다고 생각한다. 단지 나의 상황은 이러했고 '퇴사했다’라고 축약된 한 줄로 말하면 많은 맥락이 지워진다. 고민들을 언어화하고 싶었다. 공유하고 싶었다. 스스로에게 그리고 타인에게 질문을 던지는 건 생각보다 많은 이야기들을 이끌어낼 수 있는 방법이다. 혹시 이 글을 읽으신 분이 있다면, 여기 계시다면 물어보고 싶다. 어떤 분석가가 되고 싶으신가요?
'데이터분석' 카테고리의 다른 글
동영상 관련 태그 파이어 테스트 : 베이스와 Jpop 플리 (0) | 2024.06.18 |
---|---|
에러 로그 (test) : 머신러닝 전처리 중 인코딩은 언제 해야할까?(예정) (0) | 2024.05.16 |