분석 과제 발굴
제1장 데이터 분석 기획의 이해
목차
1. 분석 과제 발굴 개요
분석 과제 ‘발굴’의 개념과 ‘탐색’ 방법
분석 과제 발굴
어느 기업에서 데이터 분석 플랫폼을 구축하고 이를 통해 기업 경영 전략에 활용한다고 가정해봅니다. 가장 먼저 해야 할 일은 ‘무엇’을 분석해야 하는지 그 분석 과제를 발굴하는 일입니다. 분석 과제 발굴이란 해결해야 할 다양한 기업(혹은 분석의 주체)의 문제를 ‘데이터 분석 문제’로 변환하는 것을 포함하는 개념입니다. 분석 과제는 이해관계자들이 이해할 수 있게 프로젝트 수행 목적의 과제 정의서 형태로 도출됩니다. 분석 과제를 탐색하기 위해 크게 하향식 접근법과 상향식 접근법으로 나뉩니다.
분석 과제 정의서: 분석 과정에서 필요한 데이터, 분석 방법, 난이도 그리고 분석 데이터 내/외부 비구조적인 데이터 및 오픈 데이터까지 범위를 고려하여 종합적으로 정리한 문서입니다. 이를 통해 분석할 데이터의 출처와 구조를 명확히 하고, 분석 목표를 구체적으로 정의할 수 있습니다.
분석 과제 탐색 방법
하향식 접근법(Top-Down Approach): 하향식 접근법은 문제 해결 중심의 연역적 방식으로, 명확한 과제나 비즈니스 이슈가 주어진 상태에서 이를 해결하기 위해 체계적이고 단계적으로 접근합니다. 주로 경영진이나 의사결정자에 의해 문제 정의가 선행되며, 이후 분석가가 필요한 데이터를 수집하고 가설을 설정하여 분석을 수행합니다. 문제가 비교적 명확하거나 해결 방향이 설정된 경우에 효과적이며, 정책 평가, KPI 진단, 성과 분석 등에 자주 사용됩니다.
연역적 사고(Deductive Reasoning): 일반적인 원리나 법칙에서 출발해, 구체적인 사례나 결론을 도출하는 논리적 추론 방식입니다. 즉, “전체 → 부분”의 방향으로 사고가 전개됩니다.
-
특징:
- 문제 정의에서 시작하여 해결 방안을 찾는 데 초점을 맞춥니다.
- 분석의 목표가 명확하고 범위가 제한적입니다.
- 주로 구조화된 데이터와 명확한 가설을 기반으로 합니다.
-
예시:
- 매출 감소의 원인 분석: 특정 제품의 판매 부진 원인 분석, 특정 지역의 매출 감소 원인 분석 등
- 고객 이탈 예측: 고객 이탈에 영향을 미치는 요인 분석, 이탈 가능성이 높은 고객 예측 모델 개발 등
상향식 접근법(Bottom-Up Approach): 상향식 접근법은 데이터 중심의 귀납적 탐색 방식으로, 명확한 문제 정의 없이 원천 데이터 자체에서 패턴과 통찰을 발견해나가는 접근입니다. 특히 구조화되지 않은 대규모 데이터가 빠르게 생성되는 현대 환경에서 유용하며, 문제가 불분명하거나 새로운 과제를 발굴해야 할 때 효과적입니다. 사용자의 행태 분석, 신규 고객군 탐색, 이상탐지, 추천 시스템 등에서는 상향식 접근이 필수적입니다. EDA, 비지도학습, 클러스터링, 이상치 탐지와 같은 기법들이 이 방식에 잘 어울립니다.
귀납적 사고(Inductive Reasoning): 구체적인 사례나 관찰에서 출발하여 일반적인 법칙이나 이론을 도출하는 방식입니다. 즉, “부분 → 전체”의 방향으로 사고가 확장됩니다.
-
특징:
- 데이터 자체에서 패턴과 관계를 발견하는 데 초점을 맞춥니다.
- 분석의 목표가 유연하고 탐색적입니다.
- 주로 비정형 데이터나 탐색적 데이터 분석(EDA)을 기반으로 합니다.
-
예시:
- 고객 리뷰 데이터 분석을 통한 새로움 제품 아이디어 발굴
- 소셜 미디어 데이터 분석을 통한 트렌드 파악
- 센서 데이터 분석을 통한 이상 감지 및 예측
접근법 선택 및 혼용:
- 분석 대상을 명확히 알고 있다면 하향식 접근법을, 분석 대상을 모른다면 상향식 접근법을 사용하는 것이 일반적 입니다.
- 실제 분석 과정에서는 분석 과제 발굴의 효율성을 높이기 위해 하향식 접근법과 상향식 접근법을 혼용하는 경우가 많습니다.
디자인 씽킹(Design Thinking)
IDEO사의 디자인 씽킹:
IDEO사의 디자인 씽킹 프로세스는 문제 발견과 솔루션 제시 영역으로 구분되며, ‘더블 다이아몬드 프로세스(Double Diamond Process)’라고도 불립니다. 이 프로세스는 상향식 접근법의 발산 단계와 하향식 접근법의 수렴 단계가 반복적으로 수행되어 상호 보완적으로 분석의 가치를 높이는 의사 결정 방식입니다. 수렴과 발산을 반복하면서 창의적이고 혁신적인 아이디어를 도출하는 방식입니다.
Source: Designorate - The Double Diamond Design Thinking Process and How to Use it
스탠퍼드대학 d.school의 디자인 씽킹:
스탠퍼드대학 d.school의 디자인 씽킹은 비즈니스와 기술 그리고 인간 중심 사고가 만나 혁신적 해결책을 도출하는 또 하나의 새로운 방법이 될 수 있습니다. 이 디자인 씽킹은 상향식 접근법에 속한다고 볼 수 있다. 이는 특히 비정형 문제, 사용자 경험 기반 문제 해결에 매우 효과적입니다.
프로세스 단계:
-
공감(Empathise): 데이터 분석을 통해 사용자 행동 패턴, 요구사항, 문제점을 객관적으로 파악하는 것이 중요합니다. 예를 들어, 웹 로그 분석, 소셜 미디어 분석, 설문조사 데이터 분석 등을 통해 사용자의 숨겨진 니즈를 발견할 수 있습니다.
-
정의(Define): 문제의 범위를 명확히 하고, 해결해야 할 핵심 문제를 구체적으로 정의해야 합니다. 문제 정의 단계에서 데이터 기반 의사결정 (data-driven decision making)이 중요합니다.
-
아이디어 도출(Ideate): 다양한 아이디어를 도출하고, 데이터 기반 예측 모델 또는 시뮬레이션 모델을 활용하여 아이디어의 실행 가능성을 검증할 수 있습니다.
-
프로토 타입(Prototype): 프로토타입의 성능을 평가하고, 데이터 기반 A/B 테스트를 통해 프로토타입의 개선점을 도출할 수 있습니다.
-
테스트(Test): 사용자 테스트 결과를 분석하고, 데이터 기반 의사결정을 통해 프로토타입을 최종적으로 개선할 수 있습니다.
-
평가(Assess): 데이터 분석 결과를 바탕으로 제품 또는 서비스의 성과를 평가하고, 데이터 기반 의사결정을 통해 지속적인 개선 방안을 모색할 수 있습니다.
Source: Empathize IT - Stanford Design Thinking vs. Other Design Thinking Models
2. 하향식 접근법
1단계 - 문제 탐색 단계
비즈니스 모델 탐색 기법:
비즈니스 모델 캔버스의 9가지 블록을 5가지로 단순화한 탐색 기법입니다. 업무(Operation), 제품(Product), 고객(Customers) 단위로 문제를 발굴하고 이를 관리하는 규제와 감사(Audit & Regulation), 지원 인프라(IT & Human Resource)의 두 가지 영역에 대한 기회를 추가로 도출하는 작업을 수행합니다. 여기서의 지원 인프라는 분석을 수행하는 시스템 영역(IT)과 이를 운영하고 관리하는 인력(Human Resource)의 영역을 의미합니다.
예시: 항공사 고객 이탈 사례 발생
- 업무: 고객이 항공권 발권에 너무 많은 시간을 소비하고 있을 수 있다.
- 제품: 타 항공사 대비 항공권 가격이 비쌀 수 있다.
- 고객: 고객이 원하는 서비스에 변화가 생겼을 수 있다.
- 규제 & 감사: 보안상의 문제로 항공권 발권에 지나친 개인정보를 요구하고 있을 수 있다.
- 지원 인프라: 온라인 발권 시 IT 시스템의 문제로 고객 불편함이 발생할 수 있다.
채널(Channels):
- 고객에게 value proposition을 전달한다.
- 기업이 전달하는 value proposition을 고객들이 평가할 수 있게 해준다.
- 고객에게 애프토서비스(A/S)를 제공한다.
- 기업이 제공하는 사품이나 서비스에 대한 고객의 이해를 높여준다.
분석 기회 발굴 범위의 확장:
기업과 산업 환경을 중심으로 거시적 관점, 경쟁자, 시장의 니즈, 역량 등 4가지 영역에 대해 비즈니스 문제를 발구하는 방법이다.
거시적 관점 |
문제 혹은 변화가 기업에 주는 영향을 탐색한다. - 사회: 노령화 문제, 저출산 문제 등 - 기술: 나노 기술, IT 융합 기술, 로봇 기술의 등장 등 - 경제: 원자재 가격, 환율, 금리의 변화 등 - 환경: 탄소 배출 규제 등 - 정치: 대북 관계 등 |
경쟁자 확대 관점 |
기업에 위협이 될 상황을 탐색한다. - 대체재: 기업의 상품 및 서비스가 대체될 수 있는 것에 대한 탐색 및 잠재적 위협 파악 - 경쟁자: 식별된 주요 경쟁사의 제품 및 서비스 카탈로그 및 전략을 분석 - 신규 진입자: 현재 직접적인 경쟁자는 아니지만 향후 영향력이 커질 것으로 판단되는 위협 |
시장의 니즈 탐색 |
시장의 니즈 탐색 관점에서 문제를 탐색한다. - 고객: 고객 기업들의 산업 및 경영 현황 등을 파악 - 채널: 상품 및 서비스가 전달될 수 있는 경로에 대한 파악 - 영향자들: 시장 확대에 따른 유사 업종의 기업 인수 등에 대한 파악 |
영량의 재해석 |
역량의 재해석 관점에서 다시 기업 내부를 둘러보도록 한다. - 내부 역량: 자사 소유 부동산 등 부가 가치 창출 기회의 탐색 - 파트너와 네트워크: 자사가 직접 보유하고 있지는 않지만 관계사 혹은 공급사의 역량을 활용한 부가가치 창출 기회의 탐색으로 기업경영 노하우 등이 있다. |
외부 참조 모델 기반 문제 탐색 및 분석 유스케이스 정의
유사 동종 업계에서 기존에 수행항 문제 탐색 및 분석 과제 등을 활용하는 것 역시 중요한 시사점을 도출합니다. 유사 동종 사례 벤치마킹을 통한 분석 기회 발굴은 산업별, 서비스별 분석테마 후보 그룹(POOL)을 통한 가장 빠르고 쉬운 방식(Quick & Easy)으로 분석 기회가 무엇인지 아이디어를 얻는 브레인스토밍을 활용한 방법입니다. 현재 비즈니스 모델 및 유사, 동종 업계의 탐색을 통해 발견된 문제들을 세부과제로 도출하기 전에 먼저 ‘분석 유스케이스(Analytics Use Cases)’로 정의한다. 이렇게 정의한 다음, 향후 어떻게 풀어나가야 할지에 대한 방법과 그로 인한 효과도 함께 명시합니다. 분석 유스케이스란 분석을 적용했을 때 업무 흐름을 개념적으로 설명한 것으로 프로세스 혁신 수단으로 활용되기도 합니다.
예시:
- 동종 업계1: 여러 노선의 최적화로 가능한 한 많은 고객이 원하는 시간을 맞추었다.
- 동종 업계2: 하나의 노선에 특화된 전략으로 하나의 노선을 독점할 수 있었다.
2단계 - 문제 정의 단계
문제 정의
문제 정의 단계는 식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계입니다. 앞에서 본 비즈니스 모델 기반 문제 탐색과 외부 사례 기반 문제 탐색의 두 가지 방법에 의한 문제 탐색은 무엇을(What), 어떠한 목적으로(Why) 수행해야 하는지에 대한 관점이라면, 문제 정의 단계는 이를 달성하는 데 필요한 데이터 및 기법을 정의하기 위한 데이터 분석의 문제로 변환을 수행합니다. 데이터 분석 문제의 정의는 최종 사용자(End-User)의 관점에서 이루어져야 합니다.
문제 정의의 예
예를들어 영업 부서에서 ‘최근 고객들의 불만이 높아지고 있다’는 비즈니스 문제가 식별됐다고 가정해보면, 이를 데이터의 문제로 변환하면 ‘고객의 불만에 영향을 끼치는 요인은 무엇인지 분석하고, 그 요인과 고객 불만율에 대한 상관 관계 및 예측 모델을 수립합니다’로 바꿀 수 있습니다. 이것이 하향식 접근법의 2단계인 데이터로의 ‘문제 정의’ 단계 입니다.
3단계 - 해결 방안 탐색 단계
해결 방안 탐색
문제 정의 단계에서 정의된 데이터 분석 문제를 해결하기 위한 방안을 모색하는 단계입니다. 해결 방안을 탐색하면서 동시에 현재 기업 수준에서의 분석이 가능한 시스템을 갖추었는지, 분석을 수행할 인력이 확보되었는지를 함께 확인해봐야 합니다.
해결 방안 탐색 단계 프로세스
먼저 기존 시스템으로 가능한지와 기업 자체의 역량이 있는지를 판단하여 다음 그림과 같이 4개의 해결 방안 중 하나를 선정합니다.
4단계 - 타당성 검토 단계
타당성 검토
수행되어야 할 분석 과제가 정의되었고 어떠한 방법으로 어떤 인력과 함께 수행될지 결정되었다면 과연 이 해결 방안이 타당한 것인지 검토해야 합니다. 타당성 검토는 크게 경제적 타당성 검토와 데이터 및 기술적 타당성 검토의 두 가지로 나뉩니다.
타당성 검토의 두 가지 유형
-
경제적 타당성: 분석을 위한 지출 항목으로 데이터, 시스템, 인력, 유지보수 등과 같은 비용과 분석 결과가 적용되었을 때 추정되는 실질적 비용 절감, 추가 매출, 수익 등과 같은 경제적 가치를 고려해야 한다. 왜냐하면 분석에 수행되는 비용이 분석이 수행되었을 때의 경제적 이득보다 크다면 기업에는 손해임이 분명하다.
-
데이터 및 기술적 타당성: 경제적 가치가 아무리 뛰어난 분석이라 하더라도 분석의 수행 가능 여부를 따져봐야 한다. 수행될 수 없는 분석을 추진하는 것 역시 경제적 손실이 따르기 때문이다. 데이터 및 기술적 타당성 검토에서는 데이터 존재 여부, 분석 시스템 환경, 그리고 분석 역량을 고려해야 한다.
3. 상향식 접근법
상향식 접근법 개요
상향식 접근법 개념 상향식 접근법은 분석 대상이나 문제 정의가 명확하지 않을 때, 원천 데이터를 출발점으로 하여 의미 있는 패턴이나 인사이트를 발굴하는 방법입니다. 말 그대로 ‘데이터에서 출발해 문제를 규명해 나가는 방식’이며, 이는 문제 정의 이전에 데이터 자체를 먼저 탐색하는 것이 핵심입니다. 원천 데이터에 대한 탐색적 데이터 분석(EDA) 또는 비지도 학습(예: 군집 분석, 이상치 탐지) 등을 통해 숨어있는 구조나 이상 패턴을 발견합니다. 이후 이 발견을 기반으로 비즈니스적 의의가 있는 문제를 도출하거나, 새로운 분석 기회를 제시합니다. 100개의 물감을 섞어 새로운 색상을 만들고자 할 때, 처음부터 목표 색상이 정해져 있지 않다면, 다양한 색상과 비율을 실험하며 눈에 띄는 색을 찾아갑니다. 이처럼 명확한 방향 없이도 다양한 시도와 탐색을 통해 유의미한 결과를 발견하는 것이 상향식 접근입니다.
특징 상향식 접근법은 분석 대상이나 문제 정의가 명확하지 않은 상황에서, 데이터를 출발점으로 삼아 분석 과제를 도출하는 탐색 중심의 접근 방식입니다. 이 방식은 원천 데이터를 직관적으로 탐색하며, 사전 가설 없이 패턴이나 이상값, 군집 등을 스스로 발견해 나가는 과정을 중시합니다. 특히 클러스터링이나 차원 축소 같은 비지도 학습 기법과 잘 어울리며, 기존에 인식하지 못했던 문제를 새롭게 정의하거나 숨겨진 인사이트를 도출하는 데 효과적입니다. 상향식 접근은 직관과 창의성을 바탕으로 데이터에서 통찰력을 얻고, 그로부터 새로운 분석 주제나 전략을 설계하게 됩니다. 다만 명확한 목표 없이 시작되기 때문에 분석 과정에서 방향 수정이 자주 필요하며, 불확실성을 감수하는 태도가 요구됩니다.
지도학습과 비지도학습
지도학습(Supervised Learning): 지도학습(Supervised Learning)은 정답(Label)이 있는 데이터를 기반으로 입력과 출력 간의 관계를 학습하는 방식으로, 모델이 주어진 데이터를 통해 목표 변수를 예측할 수 있도록 훈련됩니다. 지도학습은 크게 두 가지 유형으로 나뉘며, 목표 변수가 범주형일 경우 분류(Classification) 문제로, 예를 들어 이메일이 스팸인지 여부나 고객의 이탈 여부를 예측하는 데 사용되고, 목표 변수가 연속형일 경우 회귀(Regression) 문제로, 예를 들어 주택 가격이나 매출액을 예측하는 데 활용됩니다. 대표적인 알고리즘에는 선형 회귀, 로지스틱 회귀, K-최근접 이웃(KNN), 의사결정나무, 랜덤포레스트, 서포트 벡터 머신(SVM), 신경망 등이 있으며, 이 방식은 명확한 정답이 있는 데이터셋을 통해 예측의 정확도를 평가하고 개선할 수 있다는 점에서 널리 사용됩니다.
비지도학습(Unsupervised Learning): 정답 레이블이 없는 데이터로부터 숨겨진 구조나 패턴을 찾아내는 학습 방식입니다. 목표 변수가 없기 때문에 특정 값을 예측하기보다는, 데이터 간의 유사성, 분포, 연관성, 군집 구조 등을 파악하여 데이터의 내재된 상태나 특성을 표현하는 데 중점을 둡니다. 상향식 접근법에 데이터 분석은 주로 비지도학습을 기반하며, 분석 대상이 명확히 정의되지 않은 상황에서 유용하게 사용됩니다. 비지도학습은 데이터 탐색(EDA)이나 전처리, 이상 탐지, 세분화 전략 수립 등에 활용되며, 대표적인 기법으로는 군집화(Clustering), 차원 축소(Dimensionality Reduction), 연관 규칙 학습(Association Rule Learning) 등이 있습니다. 주요 알고리즘에는 K-평균(K-Means), 계층적 군집화(Hierarchical Clustering), DBSCAN, 주성분 분석(PCA), t-SNE, Autoencoder 등이 포함됩니다.
시행착오를 통한 문제 해결(프로토타이핑 접근)
개념
상향식 접근법의 대표적인 전략으로, 문제 정의가 명확하지 않거나 처음 시도하는 분석 과제에 적합한 방식입니다. 이는 초기부터 완벽한 해결책을 설계하기보다는, 분석을 통해 나온 결과를 기반으로 반복적으로 수정·개선하며 점진적으로 최적의 해답을 찾아가는 방식입니다. 이러한 방식은 특히 빅데이터 환경처럼 복잡하고 예측 불가능한 문제 상황에서 유용하게 작용하며, 기존에 정의된 문제가 없거나 전통적인 데이터 기반 접근이 어려운 경우에 효과적입니다. 기업 내부에 필요한 데이터를 확보하지 못했거나 해결하고자 하는 문제 자체가 새롭게 등장한 경우, 프로토타이핑은 실제 분석 결과를 토대로 문제를 구체화하고 가설을 발전시켜 나갈 수 있는 실용적인 방법론으로 기능합니다. 이처럼 시행착오를 통해 해답을 탐색하는 과정은 실험적이면서도 유연한 분석을 가능하게 하며, 분석과 문제 정의를 병행하는 탐색적 데이터 분석(EDA) 또는 애자일 분석 전략과도 밀접하게 연관됩니다.
프로세스
가설의 생성 -> 디자인에 대한 실험 -> 실제 환경에서의 테스트 -> 테스트 결과로부터 인사이트 도출 및 가설 확인
프로토타이핑 접근법이 필요한 경우
- 문제가 초기 단계에 있으며 정의가 명확하지 않은 경우:
해결해야 할 과제가 아직 구체화되지 않았거나 탐색이 필요한 초기 상황에서는, 데이터를 중심으로 반복적인 실험을 통해 문제를 명확히 정의하는 접근이 효과적입니다.
- 필요한 데이터의 존재나 수집 가능성이 불확실한 경우:
분석에 필요한 데이터가 존재하는지, 또는 확보 가능한지 판단이 어려운 경우에는, 가용한 데이터로 프로토타입을 만들어보며 가능성을 검토할 수 있습니다.
- 데이터의 사용 목적이나 분석 방향이 유동적인 경우:
프로젝트의 목적이 고정되지 않았거나 분석 방향이 유연하게 변화할 수 있는 상황에서는, 반복적인 탐색과 실험을 통해 목적과 방법을 함께 구체화해 나가는 방식이 유용합니다.