데이터 아키텍처(Data Architecture)? 쉽게 배워봅시다!

데이터 아키텍처(Data Architecture)? 쉽게 배워봅시다!

비개발자에게는 생소하게 느껴질 수 있는 데이터 아키텍처의 의미와 데이터 아키텍처를 구성하는 데이터 마트, 데이터 웨어하우스, ETL 등에 대해서 알려 드립니다.

목차

안녕하세요! 'Everyone is an analyst, 하트카운트'의 Jaden입니다.

오늘은 데이터 아키텍처에 대한 이야기를 나누려고 합니다. 처음 접하면 낯설고 복잡할 수 있지만, 함께 차근차근 알아보면 더 이해하기 쉬울 거에요.

0. 데이터 아키텍처(Data Architecture)란?

먼저 '데이터 아키텍처'가 무엇을 의미하는지 부터 알아봅시다.

비개발자들에게는 '아키텍쳐'라는 용어가 낯설게 느껴질 수 있습니다. 이 용어는 직역하면 '건축학'이라는 단어이며, 시스템 및 소프트웨어 산업에서는 '시스템이 어떻게 구성되며 동작하는지 원리를 나타내는 원칙'을 의미합니다.

데이터 아키텍처(Data Architecture)는 조직이 데이터를 수집, 저장, 처리 및 관리하는 방법을 설계하고 구현하는 일련의 과정 또는 체계를 나타냅니다.

본 글에서는 ETL, 데이터 마트, 데이터 웨어하우스 등 데이터 아키텍처를 구성하는 개별 요소에 대해서 자세히 알아보고자 합니다.

1. 데이터 원천: 데이터의 시작점

데이터는 우리의 일상에서도, 비즈니스에서도 끊임없이 생성됩니다. 그런데 이 데이터는 어디서 오는 걸까요?

  • OLTP 데이터베이스: 우리가 온라인 쇼핑을 할 때나 은행 업무를 볼 때 생성되는 트랜잭션 데이터입니다. 구매 내역, 입출금 내역 등을 생각하면 됩니다.
  • 기업 애플리케이션: 대기업부터 중소기업까지, 모든 회사에서는 ERP나 CRM 같은 시스템을 통해 데이터를 관리합니다. 고객 정보, 재고, 매출 등의 데이터가 여기에 포함됩니다.
  • 서드파티: 외부에서 제공되는 데이터로, 다양한 시장 조사나 경쟁사 분석 데이터가 이곳에 포함됩니다.
  • 웹/로그 데이터: 우리가 인터넷을 사용하면서 남기는 발자취입니다. 어떤 광고를 클릭했는지, 어떤 페이지를 얼마나 오래 보았는지 등의 정보가 여기에 저장됩니다.
  • IoT 데이터: 스마트폰은 물론, 스마트 TV, 냉장고, 에어컨 등 IoT 기기들이 생성하는 데이터입니다.

데이터는 위와 같이 여러 원천에서 옵니다.  여러 원천의 데이터를 가져와, 쓸만한 부분을 추출하고, 형태를 가공하여 사용해야 합니다.

마치 정유사에서, 원유를 뽑아내어 정제를 하여 사용하는 것과 마찬가지죠. 그렇기에 데이터가 가 4차산업에서 원유와 같다고 하는 것은 전혀 과장이 아니죠.

2. ETL : 데이터의 변신

앞서 말씀 드렸듯이, 데이터는 생성되는 그 자체로는 종종 원하는 형태나 구조가 아닙니다. 이 상태를 우리는 원시 데이터, Raw Data 라고 부릅니다.

따라서 우리는 이 데이터를 용도에 맞게 변형시켜야 합니다. 이렇게 데이터를 추출, 변환, 그리고 로드하는 과정을 ETL(추출, 변환, 적재)이라고 부릅니다.

  • 추출 (Extraction): 원천에서 데이터를 가져오는 첫 단계입니다. 이때 중요한 것은 필요한 데이터만 정확하게, 빠짐없이 가져오는 것입니다. 간혹 다양한 원천으로부터 데이터를 추출하게 될 때, 이 과정이 복잡해질 수 있습니다.
  • 변환 (Transformation): 가져온 데이터는 다양한 이유로 원하는 형태가 아닐 수 있습니다. 여기서 데이터는 필요한 형식으로 변환되며, 불필요한 데이터는 제거됩니다. 또한 여러 원천에서 가져온 데이터를 합치거나, 데이터의 품질을 향상시키는 등의 작업이 이루어집니다.
  • 로드 (Load): 이제 변환된 데이터를 최종적으로 데이터 웨어하우스나 데이터 레이크 같은 저장 공간에 넣습니다. 이 데이터는 추후 분석이나 다양한 업무에 사용됩니다.

3. 웨어하우스와 레이크 : 데이터의 보관소

데이터를 안전하고 효율적으로 저장하는 곳이 필요합니다. 이러한 공간을 데이터 웨어하우스(Data Warehouse)데이터 레이크(Data Lake)라고 부릅니다.

데이터 웨어하우스

이곳은 주로 구조화된 데이터(Stuctured Data), 즉 테이블 형태의 데이터를 저장하는 곳입니다. 데이터 웨어하우스는 긴 시간 동안 안정적으로 큰 규모의 데이터를 저장하고, 필요할 때 빠르게 조회할 수 있도록 설계되어 있습니다. 여러 비즈니스 질의나 보고를 위해 주로 사용됩니다.

데이터 레이크

최근 많은 관심을 받고 있는 데이터 저장소로, 정형 뿐만 아니라 반정형, 비정형 데이터도 저장할 수 있습니다. 예를 들면, 로그 파일이나 소셜 미디어 데이터, 이미지 등 다양한 형태의 데이터를 포함할 수 있습니다. 데이터 레이크는 큰 규모의 원시 데이터를 저장하고, 필요에 따라 이를 처리하여 사용할 수 있게 합니다.

4. 데이터 마트 : 용도에 따라 관리

기업에서는 데이터 웨어하우스의 데이터 전체를 항상 사용하는 것이 아니라, 특정 부서나 목적에 맞는 일부 데이터만 필요한 경우가 많습니다. 이럴 때 사용되는 것이 데이터 마트(Data Mart)입니다.

데이터 마트의 정의

데이터 웨어하우스의 특정 주제나 부서에 특화된 부분집합을 의미합니다. 예를 들어 마케팅팀은 고객 데이터나 광고 데이터에만 관심이 있을 수 있으므로, 이런 데이터만 따로 모아놓은 것이 마케팅 데이터 마트가 될 수 있습니다.

데이터 마트의 장점

  1. 효율적인 데이터 관리와 접근성: 데이터 마트는 작은 규모로 인해 데이터 관리가 용이합니다. 이는 특정 부서나 팀이 필요로 하는 데이터에 빠르고 쉽게 접근할 수 있게 해주며, 이로 인해 데이터 관리와 유지 보수의 복잡성이 감소합니다.
  2. 증가된 성능: 전체 데이터 웨어하우스에 비해 규모가 작기 때문에, 쿼리 처리 속도가 빨라집니다. 이는 사용자가 데이터를 더 빠르게 분석하고 인사이트를 얻을 수 있게 해줍니다.
  3. 사용자 맞춤형 데이터 제공: 데이터 마트는 특정 업무나 부서의 요구에 맞춰진 데이터를 제공합니다. 이는 해당 부서의 사용자가 더 관련성 높은 데이터에 집중할 수 있게 해주며, 결국 더 정확하고 효율적인 의사결정을 가능하게 합니다.
  4. 보안과 데이터 보호: 데이터 마트는 특정 데이터 세트에 대한 접근을 제한함으로써, 보안과 데이터 보호를 강화할 수 있습니다. 이는 민감한 데이터를 다루는 조직에 특히 중요한 장점입니다.

5. 다양한 분야에서의 데이터 활용

데이터는 그 자체로 중요하지만, 그것을 어떻게 활용하느냐에 따라 진정한 가치가 발휘됩니다. 여러 분야에서의 데이터 활용은 기업의 성장과 혁신에 기여하며, 더 나은 의사결정을 위한 기반이 됩니다.

기업 내부의 핵심 부서별 활용

  • BI/Analytics: 비즈니스 인텔리전스를 통해 기업 전략 설정 및 분석.
  • 마케팅: 고객 행동 및 선호도 분석, 타겟팅 및 캠페인 전략 수립.
  • 재무 (Finance): 재무 상태 분석, 예산 설정 및 투자 전략.
  • 인사 (HR): 직원의 성과 및 만족도 분석, 인사 전략 및 평가 기준 설정.

개발 및 테스트 환경에서의 활용

  • 테스트/개발 (Test/Dev): 제품 성능 테스트, 버그 추적 및 최적화.
  • 실시간 분석 (Real-time Analysis): 실시간 사용자 반응 및 시스템 성능 모니터링.
  • 제품 관리 (Product Management): 사용자 경험 분석, 제품 기능 개선 및 roadmap 설정.

데이터 전문가들의 고도화된 활용

  • 데이터 과학 (Data Science): 복잡한 데이터 분석, 머신러닝 모델링.
  • 데이터 수익화 (Data Monetization): 데이터를 기반으로 한 새로운 비즈니스 모델 탐색.
  • 보안 (Security): 보안 위협 및 침입 감지, 데이터 보호 전략 수립.

일반적인 운영 및 보고 활용

  • 운영 보고서 (Operational Reporting): 일일/주간/월간 업무 보고 및 성과 관리.
  • 외부 사용자 (Externals): 외부 파트너, 고객, 협력사 대상 데이터 제공.
  • 고객 지원 (Customer Support): 고객 문의 및 문제 해결을 위한 데이터 분석.

특별한 활용 분야

  • 건강 관리 (Healthcare): 환자의 건강 데이터를 분석하여 개인별 치료 전략 설정, 예방조치 및 병원 운영 효율화.
  • 공공 부문 (Public Sector): 시민들의 의견과 데이터를 통한 정책 결정, 도시 계획 및 공공 서비스 개선.
  • 교육 (Education): 학생들의 학습 패턴 분석, 교육 커리큘럼 및 교육 방법의 최적화.
  • 물류 및 운송 (Logistics & Transportation): 운송 수단의 효율적인 관리, 경로 최적화 및 물류비용 절감.
  • 에너지 (Energy): 에너지 소비 패턴 분석, 지속 가능한 에너지 솔루션 연구 및 구현.
  • 부동산 (Real Estate): 시장 트렌드 분석, 투자 가치 평가 및 부동산 가격 예측.
  • 미디어 및 엔터테인먼트 (Media & Entertainment): 사용자의 콘텐츠 선호도 분석, 맞춤형 광고 전략 및 콘텐츠 추천.


데이터는 현대 사회에서 그 중요성을 꾸준히 증명하며, 다양한 분야에서 깊고 폭넓게 활용되고 있습니다.

기업의 내부 부서부터 개발 및 테스트 환경, 데이터 전문가들의 고도화된 활용, 일반적인 운영 및 보고, 그리고 특별한 활용 분야까지, 데이터의 활용 범위는 끊임없이 확장되고 있습니다.

하지만, 모든 사람이 데이터 전문가는 아니죠. "Everyone is an Analyst"라는 슬로건 아래, 하트카운트는 모든 사람들이 코딩 없이도 깊이 있는 데이터 분석을 수행할 수 있도록 돕습니다.

단순한 질문만으로도 "이번 달의 매출은 얼마나 됐을까?", "사용자의 활동 패턴은 어떤 추세를 보이고 있나?"와 같은 궁금증을 해결할 수 있습니다.

그렇다면 이제 데이터와의 대화를 시작해 볼까요? 데이터 분석의 어려움을 넘어서, 하트카운트와 함께 모든 사람이 데이터 분석가가 되는 경험을 해보세요.

💖
HEARTCOUNT는 모든 실무자들을 위한 시각화 및 분석 도구입니다.
지금 구글 계정으로 로그인하여 사용해보세요.