빅데이터의 이해
과목 Ⅰ 제2장 데이터의 가치와 미래
목차
1. 빅데이터의 이해
빅데이터의 정의
빅데이터는 단순히 ‘데이터의 크기가 큰 것’ 만을 의미하지 않습니다. 다양성(Variety), 속도(Velocity), 규모(Volume) 등 다양한 차원을 포함한 복잡한 데이터 환경 전반을 포괄하는 개념입니다.
빅데이터는 대규모 데이터를 효과적으로 수집, 저장, 처리, 분석하여 새로운 통찰(insight)과 가치를 창출하는 것을 목적으로 하며, 기존의 데이터 처리 방식으로는 분석이 어려운 데이터에 대해 혁신적 접근법을 필요로 합니다.
국내외 기관별 빅데이터 정의
일반적 정의: 빅데이터의 ‘빅(big)’에는 단순히 양적인 개념뿐만 아니라 복잡하고 다양한 질적인 개념도 포함되어 있다. 일반적으로 빅데이터란 큰 용량과 복잡성으로 기존 애플리케이션이나 툴로는 다루기 여러운 데이터셋의 집합을 의미합니다.
가트너(Gartner) 정의: 빅데이터란 향상된 시사점과 더 나은 의사결정을 위해 사용되는 비용 효율이 높고 혁신적이며 대용량, 고속 및 다양성의 특성을 가진 정보 자산을 말한다(2012).
매킨지(McKinesey)정의: 빅데이터란 일반적으로 데이터베이스 소프트웨어가 가장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터를 말한다(McKinsey Global Institute, 2011).
IDC 정의: 빅데이터란 다양한 종류의 대규모 데이터에서 낮은 비용으로 가치를 추출하고, 데이터의 초고속 수집과 발굴을 지원하도록 고안된 차세대 기술 및 아키텍처를 말한다(2011).
일본 노무라연구소 정의: 노무라연구소는 데이터와 데이터 처리, 저장 및 분석기술에 의미 있는 정보 도출은 물론이고, 그에 필요한 인재나 조직까지도 넓은 의미의 빅데이터에 포함시킬 것을 제안했다.
더그 래니(Doug Lanery)의 정의(3V): 빅데이터는 데이터의 양(Volume), 데이터의 유형과 소스의 다양성(Variety), 데이터 수집과 처리 측면에서의 속도(Velocity)가 급격히 증가하면서 나타나는 현상이다.
마이어쇤베르크와 쿠키어(Mayer-Schönberg&Cukier)의 정의: 빅데이터란 대용량 데이터를 활용해 작은 용량으로는 얻을 수 없었던 새로운 통찰이나 가치를 추출해내는 일이다. 나아가 이를 활용해 시장, 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 일이다.
한국데이터산업진흥원 정의: 빅데이터란 데이터에 대한 기존의 접근 방식으로는 얻을 수 없었던 통찰과 가치를 창출하는 모든 것을 말한다.
기관 | 정의 요약 |
---|---|
일반적 정의 | 단순한 ‘크기’뿐 아니라 다양성과 복잡성을 갖는 데이터의 집합으로, 기존 시스템으로는 처리하기 어려운 데이터. |
Gartner (가트너) | 대용량, 고속, 다양성을 지닌 정보 자산을 말하며, 이는 향상된 통찰력과 의사결정을 위해 사용된다 (2012). |
McKinsey (매킨지) | 전통적 데이터베이스 관리 도구가 수집·저장·관리·분석하기 어려운 대규모 데이터 (McKinsey Global Institute, 2011). |
IDC | 낮은 비용으로 가치 추출이 가능하고, 고속 수집과 발굴을 지원하는 차세대 기술과 아키텍처 (2011). |
노무라종합연구소 (일본) | 데이터뿐만 아니라, 처리·저장·분석 기술, 이를 활용할 인재와 조직까지 포함하는 넓은 개념. |
Doug Laney (더그 레이니) | ‘3V’ 개념 제시: Volume (규모), Velocity (속도), Variety (다양성). 빅데이터의 핵심 속성 정의. |
Mayer-Schönberger & Cukier | 빅데이터는 소량 데이터로는 얻을 수 없었던 통찰을 제공하고, 사회 전반에 변화를 야기하는 기술적 진보. |
한국데이터산업진흥원 | 기존 접근법으로는 얻을 수 없던 통찰과 가치를 창출하는 모든 활동과 기술을 포함하는 개념. |
빅데이터의 특징
더그 래니의 3V
가트너 그룹의 부회장인 더그 래니는 빅데이터를 데이터의 양(Volume), 데이터의 유형(Variety), 데이터의 생성 및 처리 속도의 증가(Velocity)로 요약하였다.
빅데이터의 새로운 특징 5V
일부 학자들은 더그 레니의 3V에 추가로 Value(가치) 혹은 Veracity(정확성)를 포함해 5V로 빅데이터의 특징을 설명하기도 한다. 여기에 Visulisation(시각화), Variability(가변성) 등을 추가하는 견해도 있다.
Value(가치): 데이터 전체를 파악하고 패턴을 발견하기가 어렵게 되면서 가치(value)의 중요성이 강조된다.
Veracity(정확성): 빅데이터 기반의 예측 분석 결과에 대한 신뢰성이 중요하게 되었다.
2. 빅데이터 출현 배경
빅데이터의 등장 배경
데이터의 양적 증가: 과학기술의 발달과 컴퓨터와 스마트폰 보급으로 우리 주변에 수많은 데이터가 쏟아져 나오고 있다. 예를 들면 이메일, SNS, CCTV 기록이나 카드 내역 등이 다양한 데이터 형식으로 발생하고, 특히 스마트폰을 이용한 디지철 소통 또는 전자상거래, 디지털미니어 서비스 사용은 폭발적인 데이터 증가로 이어졌다.
하지만 데이터가 갑자기 출현한것은 아니다. 빅데이터는 새롭게 등장한 개념이 아니라, 기술의 패러다임 시프트 현상으로 바라봐야 한다.
산업계의 변화: 산업계에서 일어난 빅데이터 현상을 ‘양질 전환의 법칙’으로 설명하기도 한다(한국데이터산업진흥원). ‘양질 전환의 법칙’이란 헤겔의 변증법에 기초를 둔 개념으로, 양적인 축적되면 질적인 변화도 이루어진다는 개념이다.
양질 전환의 법칙이란?
일정 수준 이상의 데이터가 축적되면, 새로운 통찰 또는 기술적/사회적 전환점(질적 변화)이 발생한다는 이론입니다. 이는 빅데이터가 단순한 ‘많은 데이터’가 아니라, 혁신을 이끄는 ‘질적 변화의 원천’이라는 점을 강조합니다.
학계의 변화: 학계에서도 데이터를 다루는 현상이 증가하고 있다. 거대한 데이터를 다루는 학문 분야가 늘어나면서 필요한 기술 아키텍처 및 통계 도구도 지속해서 발전하고 있다(예: 게놈 프로젝트, 대형 강입자 충돌기, NASA의 기후 시뮬레이션 등).
관련 기술의 발전: 빅데이터가 출현한 기술 발전에서 찾을 수 있다. 디지털화의 급진전, 저장 기술의 발전과 가격 하락, 인터넷의 발전과 모바일 시대 돌입, 클라우드 컴퓨팅 보편화 등은 빅데이터의 출현과 매우 밀접하다.
특히 클라우드 컴퓨팅은 많은 정보가 클라우드에 수집되는 것도 의미가 있지만, 무엇보다 빅데이터의 처리 비용을 획기적으로 낮추었다는 점에서 의의가 있다. 대용량의 데이터를 클라우드 분산 병렬처리 시스템으로 처리할 경우 비용이 혁신적으로 줄어든다는 점도 빅데이터를 분석하고 새로운 가치를 창출하는 데 기여했다고 볼 수 있다.
클라우드 컴퓨팅이란?
인터넷 기반의 컴퓨팅 기술로, 사용자가 물리적 장비 없이도 필요한 만큼의 컴퓨팅 자원(서버, 저장소, 네트워크, 소프트웨어 등)을 주문형(On-Demand)으로 사용한 만큼만 비용을 지불하는 방식으로 제공받는 기술이다.
출현 배경이 된 기술
-
고객 데이터 축적 및 활용 증가(CRM의 확대), 인터넷 확산, 무선통신의 발전(5G), 모바일 생태계 확산, 스마트폰의 보급 확대, 저장 기술의 발전과 메모리 가격 하락, 클라우드 컴퓨팅 기술 발전, SNS 확대, IoT(사물인터넷) 증가, 데이터 분석 툴의 발전
-
클라우드 컴퓨팅은 인터넷(‘클라우드’)을 통해 서버, 스토리지, 데이터베이스, 네트워킹, 소프트웨어, 분석, 인텔리전스 등의 컴퓨팅 서비스를 제공하는 것을 말한다. 클라우드 컴퓨팅을 통해 더 빠른 혁신과 유연한 리소스를 기업은 제공받을 수 있고, 경영의 이익 효과도 누릴 수 있게 됐다.
빅데이터의 기능
빅데이터는 대규모 데이터를 수집, 저장, 처리, 분석하여 의미 있는 인사이트를 도출하고, 이를 기반으로 예측, 의사결정 지원, 서비스 최적화, 신규 비즈니스 창출까지 가능하게 하는 핵심 기술입니다. 데이터 기반의 지능형 시스템 구현, 실시간 분석, 고객 맞춤형 서비스 제공, 자동화된 의사결정, 그리고 플랫폼 기반의 데이터 활용 확장 등이 대표적인 기능입니다. 이러한 기능을 통해 조직은 생산성과 효율성 향상, 경쟁력 강화, 고객 경험 개선 등의 효과를 얻을 수 있습니다.
빅데이터의 핵심 기능과 비유
산업혁명 시대의 ‘석탄·철’과 같은 생산 수단
- 설명: 과거 산업혁명 당시 석탄과 철이 기계화와 대량생산을 가능하게 한 핵심 자원이었던 것처럼, 빅데이터는 4차 산업혁명 시대의 핵심 생산 수단으로 간주됩니다.
- 의미: 데이터를 활용해 인공지능, 자동화, 맞춤형 서비스 등의 지능화된 서비스와 제품을 생산할 수 있음.
21세기의 ‘원유(Oil)’
- 설명: 데이터는 가공되지 않으면 가치가 없지만, 정제(분석)를 거치면 막대한 가치를 창출할 수 있다는 점에서 원유와 같다고 비유됩니다.
-
의미: 수집된 데이터는 적절한 분석을 통해 경제적 자산으로 전환될 수 있음.
“Data is the new oil.” – Clive Humby
세상을 보는 ‘렌즈(Lens)’
- 설명: 빅데이터는 기존에 보이지 않던 사회, 소비자, 시장의 흐름을 투명하게 관찰할 수 있는 도구 역할을 합니다.
- 의미: 직관이나 경험 중심의 의사결정에서 벗어나, 데이터를 통해 보다 정확하고 객관적인 판단이 가능해짐.
- 예: 검색어 분석을 통한 사회 이슈 감지, 소셜미디어 분석을 통한 감정 흐름 탐지 등
다양한 서비스를 담아내는 ‘플랫폼(Platform)’
- 설명: 빅데이터는 단순한 분석 도구를 넘어, 데이터 기반 서비스를 연결하고 확장할 수 있는 플랫폼 기능을 수행합니다.
- 의미: 데이터 마켓, 클라우드 기반 분석 플랫폼, AI API 등 다양한 형태로 비즈니스 생태계 중심 인프라 역할을 수행함.
- 예: 아마존의 추천시스템, 구글 검색엔진, 네이버 뉴스 알고리즘 등
비유 | 기능적 의미 | 핵심 역할 |
---|---|---|
석탄·철 | 산업혁명의 생산 수단 | 4차 산업혁명의 핵심 자원 |
원유 | 가공 전에는 무가치, 가공 시 고부가가치 | 경제적 자산으로 전환 |
렌즈 | 세상을 관찰하는 도구 | 데이터 기반 통찰 도출 |
플랫폼 | 서비스 기반 확장 인프라 | 디지털 생태계 연결과 확장 |
빅데이터로 인한 변화
빅데이터는 단순히 데이터의 양이 많아지는 것을 넘어, 데이터 처리 방식, 분석 관점, 조직 구조, 인재상까지 광범위한 변화를 초래합니다. 이 단락에서는 데이터, 기술, 조직과 인재 측면에서 나타나는 핵심 변화를 정리합니다.
데이터와 분석의 변화
사전 처리 → 사후 처리:
기존에는 분석 전에 데이터를 정제하고 정형화하는 사전 처리가 중심이었으나, 빅데이터 시대에는 가능한 많은 데이터를 수집한 뒤, 분석 시점에 필요한 형태로 가공하는 사후 처리 방식이 중심이 됩니다. 이는 데이터 손실 최소화와 예기치 못한 인사이트 발굴을 위한 접근입니다.
표본 조사 → 전수 조사:
과거에는 시간과 비용의 제약으로 대표성 있는 표본만 수집하여 분석했지만, 이제는 전체 데이터를 전수 조사하는 방식이 가능해졌습니다. 이는 정확도, 신뢰도를 높이고, 미세한 차이까지 분석할 수 있게 합니다.
질 → 양:
고품질의 적은 데이터만으로 분석하던 방식에서 벗어나, 빅데이터는 방대한 양의 데이터를 기반으로 통계적 유의성 확보와 새로운 패턴 발견을 가능하게 합니다. 데이터의 양이 곧 분석의 경쟁력이 됩니다.
인과관계 → 상관관계:
기존 분석은 변수 간 인과관계를 규명하는 데 초점을 맞췄지만, 빅데이터 분석에서는 변수 간 상관관계를 통해 의미 있는 패턴을 도출하는 것이 중요합니다. 이는 예측 정확도를 높이고 실시간 분석에 유리합니다.
변화 항목 | 전통적 방식 (Before) | 빅데이터 시대 (After) | 설명 요약 |
---|---|---|---|
데이터 처리 시점 | 사전 처리 (Pre-processing) | 사후 처리 (Post-processing) | 분석 전에 데이터를 선별·정제 → 분석 후 인사이트 추출 중심 |
데이터 수집 방식 | 표본조사 (Sampling) | 전수조사 (Census) | 일부만 수집 → 가능한 전체 데이터 확보 |
분석 초점 | 질 중심 | 양 중심 | 정제된 소량 → 대규모 데이터로 패턴 발견 |
분석 관점 | 인과관계 중심 (Causality) | 상관관계 중심 (Correlation) | 원인 규명 → 패턴과 연관성 중심 분석 |
표본조사(Sampling)는 전체 모집단 중 일부만 선택하여 데이터를 수집·분석하는 방법으로, 시간과 비용이 적게 들고 빠르게 결과를 얻을 수 있다는 장점이 있습니다. 하지만 대표성 확보가 중요하며, 잘못된 표본 추출은 전체 집단을 잘못 판단하게 만들 수 있습니다.
전수조사(Census)는 전체 모집단을 대상으로 모든 데이터를 수집하는 방식입니다. 정확성과 신뢰성이 높지만, 막대한 자원과 시간이 소요되어 기술적 한계가 존재했습니다. 하지만 빅데이터 환경에서는 자동화된 수집 및 저장 기술로 인해 전수조사가 실현 가능해졌고, 더 풍부한 인사이트를 제공할 수 있습니다.
기술적 변화
빅데이터 기술 발전은 기존 분석 패러다임을 전환시켰습니다.
다양한 기술이 데이터 수집, 저장, 처리, 분석 전반에서 활용되며, 다음과 같은 기술적 특징을 지닙니다:
수작업 모델링 → 자동화된 학습 구조:
기존의 분석 기법은 통계 모델 기반의 수작업 모델링이 일반적이었으며, 이는 분석가가 변수 선택, 가정 검정, 모델 적합 등을 일일이 수행해야 했습니다. 하지만 빅데이터 환경에서는 AI, 머신러닝(ML), 딥러닝(DL) 기술의 발전으로 인해 데이터가 스스로 학습하는 자동화된 구조가 가능해졌습니다. 이로써 대규모 데이터와 복잡한 변수 관계를 효율적으로 처리할 수 있으며, 모델 생성 속도와 예측 성능이 대폭 향상되었습니다.
기술적 발전을 이끈 핵심 요소:
- 실시간 처리 및 스트리밍 분석
- 분산처리 기반 병렬 분석 (예: Hadoop, Spark)
- 클라우드 컴퓨팅 기반 대용량 인프라
인재와 조직의 변화
빅데이터는 단순한 기술적 발전을 넘어 데이터 사이언티스트 같은 인재가 요구되면서 동시에 데이터 중심의 조직이 등장하기 시작하였습니다.
구분 | 전통적 조직 | 빅데이터 시대 |
---|---|---|
조직 구조 | 부서 중심 운영 | 데이터 중심 운영 (Data-driven Organization) |
의사결정 방식 | 직관·경험 중심 | 데이터 기반 의사결정(Data-driven Decision Making) |
인재상 | 전통 통계·IT 전문가 | 통합형 인재 (분석 + 커뮤니케이션 + 도메인 지식) |
협업 구조 | 부서별 분업 | 데이터 기반 융합 협업 (Cross-functional) |
데이터 사이언티스트는 통계, 프로그래밍, 도메인 지식을 융합적으로 이해하고 문제 해결 능력을 갖춘 핵심 인재로 떠오르고 있으며,
기업은 데이터 기반으로 조직을 재편하고 의사결정 프로세스를 전환하는 데 집중하고 있습니다.