목차

제1절 빅데이터의 이해

제2절 빅데이터의 가치와 영향

제3절 비즈니스 모델

제4절 위기 요인과 통제 방안

제5절 미래의 빅데이터


1. 빅데이터와 비즈니스 모델


빅데이터 활용 사례

기업혁신 사례:

  • 구글 검색 기능, 월마트 매출 향상, 질병 예후 진단 등 의료 분야에 접목

정부 활용 사례:

  • 실시간 교통정보수집, 기후정보 및 지질 활동, 국가안전 확보, 의료 및 교육 개선

개인 활용 사례:

  • 정치인과 연예인의 SNS 활용, 맞춤형 건강 관리

빅데이터 활용에 필요한 요소 3가지

데이터: 다양한 소스에서 생성되는 대용량 데이터의 수집, 저장, 관리 능력이 필요합니다. 기술: 데이터 처리 및 분석을 위한 빅데이터 플랫폼, 인공지능, 머신러닝 등의 기술이 필요합니다. 인력: 데이터 분석, 데이터 과학, 데이터 엔지니어링 등 빅데이터 관련 전문 인력이 필요합니다. (e.g., 데이터 사이언티스트, 알고리즈미스트)

7가지 빅데이터 활용 기본 테크닉

1. 연관 규칙 학습(Association rule learning):

  • 데이터 간의 연관성 또는 상관관계를 파악하는 기법이며 주로 마케팅 분야에서 사용됩니다. 주로 상품 추천(장바구니 분석), 교차 판매, 마케팅 전략 수립 등에 활용됩니다.
  • 예시: 온라인 서점에서 ‘인문학 서적’ 구매 고객이 ‘커피 원두’를 함께 구매하는 경향 분석 (묶음 상품 추천)

2. 유형 분석(Classification):

  • 데이터를 미리 정의된 특정 클래스나 범주로 분류하는 기법입니다. 주로 고객 세분화, 신용 평가, 질병 진단 등에 활용됩니다.
  • 예시: 은행에서 고객의 금융 거래 기록을 바탕으로 ‘고위험 대출 신청자’와 ‘저위험 대출 신청자’ 분류 (대출 심사)

3. 유전 알고리즘(Genetic algorithm):

  • 자연 선택, 교차, 돌연변이 등과 유전 원리를 모방하여 최적화 문제를 해결하는 기법입니다. 주로 최적 경로 탐색, 자원 배분, 스케줄링, 포트폴리오 최적화 등에 활용됩니다.
  • 예시: 항공사에서 승무원들의 비행 스케줄 최적화 (최소 대기 시간, 최대 효율)

4. 기계 학습(Machine learning):

  • 데이터에서 패턴을 학습하고 예측하는 알고리즘을 사용하여 자동으로 학습하는 기법입니다. 주로 이미지 인식, 자연어 처리, 추천 시스템 등에 활용됩니다.
  • 예시: 스마트폰 카메라 앱에서 사용자의 얼굴을 인식하여 ‘인물 사진’과 ‘풍경 사진’ 자동 분류 (사진 관리)

5. 회귀 분석(Regression analysis):

  • 독립 변수와 종속 변수 간의 관계를 모델링하여 예측하는 기법입니다. 주로 가격 예측, 수요 예측, 위험 분석 등에 활용됩니다.
  • 예시: 부동산 앱에서 지역별 학군, 교통, 편의 시설 등을 고려하여 ‘아파트 가격’ 예측 (부동산 투자)

6. 감성 분석(Sentiment analysis):

  • 텍스트 데이터에서 감정이나 의견을 추출하는 기법입니다. 주로 소셜 미디어 분석, 고객 피드백 분석, 여론 조사 등에 활용됩니다.
  • 예시: 영화 리뷰 사이트에서 사용자들이 남긴 댓글을 분석하여 ‘영화 평점’ 예측 (영화 추천)

텍스트 마이닝(Text Mining)

  • 스테밍(Stemming): 단어의 어근을 추출하여 형태소 분석을 수행하는 기법입니다. 예를 들어, ‘running’, ‘ran’, ‘runs’는 모두 ‘run’으로 변환됩니다.

  • 코퍼스(Corpus): 특정 주제나 분야에 대한 텍스트 데이터의 집합을 의미합니다. 예를 들어, 뉴스 기사, 블로그 글, 소셜 미디어 게시물 등이 코퍼스에 해당합니다.

  • 토큰화(Tokenization): 문장을 단어 또는 구로 분리하는 기법입니다. 예를 들어, ‘I love data analysis.’는 [‘I’, ‘love’, ‘data’, ‘analysis’]로 분리됩니다.

  • 형태소 분석(Morphological analysis): 단어를 구성하는 형태소(의미를 가지는 최소 단위)로 분해하는 기법입니다. 예를 들어, ‘사과는 맛있다’는 [‘사과’, ‘는’, ‘맛’, ‘있다’]로 ‘unbelievable’은 [‘un-‘, ‘believe’, ‘-able’]로 분해됩니다.

형태소 분석은 단어의 구조와 의미를 파악하는 데 중요한 역할을 하며, 특히 한국어와 같이 어미 변화가 다양한 언어에서 필수적인 과정입니다.

  • 임베딩(Embedding): 단어를 고차원 벡터로 변환하여 의미를 보존하는 기법입니다. 예를 들어, ‘사과’는 [0.1, 0.2, 0.3]와 같은 벡터로 표현될 수 있습니다.

7. 소셜 네트워크 분석(Social network analysis):

  • 소셜 네트워크에서의 관계 및 상호작용을 분석하는 기법입니다. 주로 마케팅, 사회적 영향력 분석, 네트워크 보안, 범죄 수사 등에 활용됩니다.
  • 예시: 온라인 게임에서 사용자들의 친구 관계를 분석하여 ‘핵심 사용자’ 파악 (게임 커뮤니티 관리)

소셜 네트워크 분석 요소

  • 중심성(Centrality): 네트워크 내에서 특정 노드가 얼마나 중요한지를 나타내며, 정보 전파와 영향력 분석에 활용됩니다. 중심성은 다음과 같은 다양한 방식으로 측정됩니다:
    • 차수 중심성(Degree Centrality): 해당 노드와 직접 연결된 다른 노드의 수를 기준으로 중요도를 평가합니다.
    • 근접 중심성(Closeness Centrality): 해당 노드와 네트워크 내 다른 모든 노드 간의 평균 거리(짧을수록 중심성 ↑)를 기반으로 평가합니다.
    • 매개 중심성(Betweenness Centrality): 네트워크 내 다른 노드들 간 경로 중 해당 노드가 얼마나 자주 거쳐지는지를 기준으로 영향력을 평가합니다.
    • 고유벡터 중심성(Eigenvector Centrality): 연결된 노드들의 중요도(중심성 가중치)를 함께 고려하여 해당 노드의 영향력을 평가합니다.

노드(Node): 네트워크의 구성 단위로, 사람, 기업, 웹사이트 등 다양한 객체를 의미합니다.