Data Analysis

카테고리 없음

데이터 웨어하우스

Holy_Water 2024. 2. 28. 15:57

내용

1. 데이터 웨어하우스란?

2. 데이터 웨어하우스의 구조

 

데이터 웨어하우스란?

큰 대기업의 데이터 관리자 입장에서 생각해보기

• 다양한 부서가 존재 (마케팅, 영업, CS, 연구 개발 등등) 


• 특정 부서는 데이터가 생성되며, 
• 임의의 부서는 다른 부서들의 데이터에 접근 


• 이때마다 데이터 호출 인터페이스를 각각 따로 만든다면 너무 많은 비용이 필요
     • 만약, 데이터를 생성하는 부서가 10개 
      • 데이터를 소비하는 부서가 5개가 있다면 
      • 총 50개의 인터페이스가 필요 (곱하기 연산!)


• 데이터의 흐름이 엉켜있는 형태
• 이를 거미집 현상(Spider Web)이라고 함 

 

데이터 웨어하우스 (Data Warehouse)

• 마치 소/도매 업자들이 소비자에게 바로 물건을 보내는 것이 아니라, 
• 이들과 소비자 사이의 물류 창고를 두고 물건의 흐름을 컨트롤하는 것을 본뜬다면 


• 기업 내부에서 움직이는 데이터의 흐름을 효율적으로 컨트롤 할 수 있음 


• 앞선 예를 다시 생각해보면 
     • 10개의 데이터 생성 부서와 5개의 소비 부서의 경우 
     • 15개의 데이터 흐름만 관리하면 됨 (더하기 연산!!) 


• 이를 데이터가 모이는 창고(warehouse)라는 의미로 
• 데이터 웨어하우스라고 함 

데이터 웨어하우스에는 무엇을 저장하나요?

• 조직이 수집한 데이터를 모두 저장 
     • 심지어 과거의 정보까지도!! 
• 전통적으로 정형 데이터(structured data)를 저장하고 관리했지만 
• 비정형 데이터(unstructured data)를 처리하고 저장하는 기능으로 통합
• 기술의 발전 및 비지니스 요구의 변화로 인해 


• 예를 들면
      • 회사 내부 자체 데이터 수집 과정에서 모이는 원천 데이터 (비정형)
      • 고객사의 사용 로그 (비정형) 
      • 노이즈 및 이상 데이터를 처리하고 레이블링을 진행한 학습 데이터 (정형) 
      • 과거 데이터 및 최신 데이터 (과거 및 최신 데이터) 
      • 등등

 

데이터 웨어하우스(DW) VS 데이터 베이스(DB)

• 두 개념은 정의와 목적부터 차이가 있음 
     • 데이터 베이스 (DB)
            • 실시간 데이터 처리와 트랜잭션 관리에 중점을 둠 
            • 일상적인 업무 및 응용 프로그램에 필요한 현재의 데이터를 저장 및 관리 
            • 데이터의 신속한 read 와 write의 목적을 갖고 있음 
      • 데이터 웨어하우스 (DW)
            • 대규모 데이터를 통합, 분석, 보고하는데 사용되는 시스템 
            • 과거의 데이터도 포함하고 있음 


• 또한, 생성과 관리의 차원에서도 차이가 있음 
      • DB는 데이터 소비처 혹은 생산처에서 만들어지고 관리되는 대상이며
      • DW는 DB의 데이터가 주기적으로 모여 만들어지게 됨 


• 그리고, 접근 사용자에 따른 차이도 존재 
      • DB : 다수의 사용들이 동시에 입력 및 수정 가능 
      • DW : 조직 내 특정 그룹의 사용자에게만 제한 

데이터 웨어하우스의 구조

데이터 웨어하우스의 구성 요소

• ETL (Extract, Transform, Load) 
     • 원천 데이터 소스에서 데이터를 추출(Extract)하고 
      • 저장할 형태에 맞춰 변형(Transform)하고 
      • 데이터 웨어하우스 중앙 데이터 저장소로 적제(Load) 


• 중앙 데이터 저장소 
      • ETL 처리 된 데이터가 쌓이는 저장소 


• 메타 데이터
      • 데이터가 쌓이면서 만들어지는 추가 정보 
      • 원천 데이터의 장소, 중앙 데이터 저장소의 크기 및 구성 방법 등 


• 접근 
      • 사용자의 데이터 저장소와의 상호작용 지원 

 

데이터 마트 (Data Mart)

• 특정 부서에서 어떠한 주제로 주기적으로 데이터를 보고자 요청한다고 해볼까요? 
     • 예를 들어, 마케팅 부서에서 사용자들의 SNS를 통한 판매 데이터를 보고 싶을 수 있겠죠? 


• 이때, 데이터 웨어하우스에서는 요청에 맞는 작은 데이터 집합을 제공해주는데 
• 그것을 데이터 마트(Data Mart)라고 함 
     • 소비자를 위해 창고에서 물건을 마트에 가져다 두는 것과 비슷한 느낌!


• 해당 부서에서 사용하는 데이터 베이스와는 다르게, 
• 과거 데이터를 포함해, 분석과 보고를 목적으로 함 

 

데이터 마트 특징

• 부서 중심적 & 주제 중심적 
     • 데이터 마트는 특정 부서나 특정 주제에 맞춰서 설계됨 
      • 항상 준비된 것이 아니라 주제에 맞는 부서의 요청이 있을 때 만들어 짐


• 데이터 집중도 ↑
      • 관련 있는 데이터만 집중적으로 포함하고 있음 
      • 사용자 그룹이 필요로 하는 정보를 빠르고 쉽게 확인 가능 


• 효율적 운영 및 사용자 친화성 
      • 큰 데이터 웨어하우스 시스템의 일부로 존재 
      • 집중도 있는 데이터의 최적화된 집합 
      • 필요한 데이터에 대한 간단한 쿼리와 간단한 분석 진행 가능

 

데이터 마트를 포함한 구조도

• 데이터 마트는 필수 사항은 아니지만

• 조직 내부에서 사업적 분석을 통해 인사이트를 얻고자 많이 사용