Intro: 시계열(time-series) 데이터
시계열(時系列, time-series) 데이터는 일정한 시간 간격으로 관측, 수집된 데이터를 말합니다. 시계열 모델 개발이 아니라 탐험적 분석(EDA) 또는 의사결정을 위한 실무적 관점에서 시계열 데이터를 분석하는 주요 목표는 날짜 변수에 내재된 주기적 특성이 매출과 같은 다른 주요 변수에 어떠한 영향을 주었는지 이해하는 것입니다.
EDA 관점에서 날짜(:시간) 데이터와 목표 변수 간의 관계를 살펴볼 때는 아래 정도를 고려하면 됩니다.
- 추세(Trend): 시간(분기, 월, 날짜, 시간)의 흐름에 따라 상승, 하강하는 경향성
- 주기적/순환적 특성(Cyclic Pattern): 시간대, 요일, 주, 월, 분기/계절에 따른 패턴이 매 사이클 (하루, 일년) 마다 반복해서 나타나는 경향
💡
이론서에는 계절적 특성을 분리해서 Seasonal Pattern으로 따로 설명하기도 합니다.
서론은 이만하고, 바로 기능을 살펴볼까요? TV 홈쇼핑 사이트의 취소율 데이터를 사용해 보겠습니다.
질문은 어떤 주기적 특성이 취소율에 영향을 주나? 입니다.
Analysis in HEARTCOUNT
📍
하트카운트 사용자라면, 활용 예시의 레시피를 직접 따라해보세요.
시각화 기능은 무료! 👉 지금 사용해보기
시각화 기능은 무료! 👉 지금 사용해보기
Dataset
데이터셋은 제품이 판매된 날짜와 시간, 해당 상품의 취소율 등으로 아래처럼 구성되어 있습니다.
위 데이터셋을 HEARTCOUNT에 올려서 상품 취소율 변수를 KPI로 지정해 주었고 다음은 자동으로 분석된 결과입니다.
파생 날짜 변수란?
- 하트카운트는 더 풍부하고 유용한 EDA 및 자동 분석 결과를 위해 원시 변수에서 파생변수를 자동 생성합니다.
- 날짜 변수의 경우, 아래 그림 처럼 분기별/월별/주별/요일별/요일유형(주중, 주말), 시간대별 주기 변수를 자동으로 생성해서 시각화 및 필터링에 사용할 수 있습니다.
주기적/계절적 패턴이 자동 분석된 결과 확인하기
아래 이미지는 수동으로 진행한 EDA 화면이 아니라 HEARTCOUNT의 자체 엔진 Smart Discovery를 통해 자동으로 계절적 패턴을 찾은 결과입니다.
<레시피>
- 요인 분석(매뉴얼 바로가기)에서 분석하고자하는 수치형 변수(KPI)를 선택합니다.(*. 요인분석은 1개 이상의 수치형 변수가 KPI로 등록되어 있어야 작동합니다.)
- (Optional) 스마트 필터를 통해 분석에 필요하지 않은 변수/레코드는 제외할 수 있습니다.
- 모든 설정이 끝났다면, [분석] 버튼을 클릭합니다.
<분석 결과 해석>
- 해당 KPI (상품 취소율)에 대한 나머지 변수들의 설명력을 알 수 있는 R^2값을 통해 변수간의 관계를 확인할 수 있습니다.
- 해당 분석 결과가 우연일 확률인 P-Value값을 통해 정확도를 검토할 수 있습니다.
(일반적으로, P-Value 값이 0.05 이하이면 통계적으로 유의미하다고 판단합니다.) - 개별 분석 결과를 클릭하면, 요인 변수가 KPI에 구체적으로 어떻게 영향을 주었는지 시각화 그래프를 통해 확인할 수 있습니다. 아래 예시에서는, 여름과 겨울 시즌에 상품 취소율이 유독 상승하는 것을 확인할 수 있네요.
💬
본 아티클에 대한 추가적인 질문/의견은 HEARTCOUNT 커뮤니티 슬랙 채널에 남겨주시면 답변드리겠습니다.