오늘은 변수 간의 관계를 통계적으로 설명하는 알고리즘인 회귀분석에 대해 알아보겠습니다.
선형회귀 (Linear Regression) 분석
• 변수값(매출, 만족도 등)의 차이가 어디에서 비롯되는지 알고자 할 때 사용하는 가장 오래되고 널리 쓰이는 이해하기 쉬운 알고리즘
• 독립변수(X)를 가지고 숫자형 종속변수(Y)를 가장 잘 설명‧예측(Best Fit)하는 선형 관계(Linear Relationship)를 찾는 방법
• 앞으로 100년 후에도 꾸준히 사용될 알고리즘으로 선형회귀 분석이 첫번째로 꼽히는 이유는 모형의 내용을 사람이 직관적으로 이해할 수 있기 때문
선형회귀분석 계산방법 (Least Squares)
X와 Y 사이에 선형적 관계가 있다는 가정 하에 실제 Y값(점들)과 예측한 Y값(직선)의 차이를 최소화하는 방정식을 계산
⎮Y = b0 + b1X + error
• b0 : Y축 절편(Intercept); 예측변수가 0일 때 기대 점수를 나타냄
• b1 : 기울기로 X가 한 단위 증가했을 때의 Y의 평균적 변화값을 나타냄
P-Value (Probability-Values)
• Statistical Significance(통계적 유의성)을 나타내는 수치로 X와 Y 사이에 발견된 관계가 통계적으로 유의미한지 여부를 알려줌
• 데이터를 통해 확인한 관계가 우연히 나왔을 확률로 생각하면 됨
• P값이 0.03이라면 X와 Y 사이에 (선형적) 관계가 없는데도 불구, 데이터 샘플링의 실수로 관계가 우연히 발생했을 확률이 3% 정도 된다는 이야기
• 절대적 기준은 없고 통상 0.01~0.05 보다 낮으면 유의미하다고 봄
• 변수 사이 관계의 세기(Size of an Effect)를 나타내는 것은 아님 (P값은 0.0001로 매우 작지만 X의 변화에 따른 Y값의 변화[관계의 세기]는 무의미한 수준으로 미미할 수 있음)
R2 (R-SQUARED; 결정계수)
• X가 Y를 얼마나 잘 설명/예측하는가를 알려주는 통계량
• Goodness of Fit: X로 설명할 수 있는 Y 변화량의 크기를 나타내며 0에서 1사의 값을 가짐 (1이면 차이를 100% 설명한다는 이야기)
• 아래 그림처럼 낮은 결정계수가 반드시 나쁜 (Inherently Bad) 것은 아님
◦ 좌, 우 모두 동일한 회귀방정식: Y = 44 + 2*X; P < 0.001
◦ 우측 모형이 좌측 모형보다 예측 정확도(R2)는 매우 높음
(즉, X값이 250이면 Y값은 얼마가 될까를 더 정확히 예측)
◦하지만, 변수 간 경향성은 동일: X: 1단위 증가 → Y: 2단위 증가
(예측의 정확도가 아니라 경향성을 파악하는 게 중요하다면 좌, 우 모두 유의미한 패턴임)
Analysis in HEARTCOUNT: 회귀분석 실습
Dataset
4개의 광고 매체와 매출이 담겨 있는 데이터셋으로 간단한 회귀분석 실습을 해보겠습니다.
Analysis
시각화 기능은 무료! 👉지금 사용해보기
매체별 광고비가 매출에 미치는 영향 회귀분석 실습
위의 선형회귀분석 알고리즘을 활용한 기능인 하트카운트의 요인분석을 통해 매체별로 어떤 관계를 가지는지 알아보겠습니다.
<레시피>
•요인분석에서, 요인을 분석할 목표 수치형 변수(sales)를 설정하고 [분석]버튼을 누릅니다.
• 변수 하나(단순회귀)와 두개(다중회귀)의 조합으로 회귀분석이 자동으로 실행된 뒤 개별 요인의 설명력을 뜻하는 R2값이 큰 순서대로 정렬됩니다.
<분석 결과 해석>
• 다중회귀분석과 단순회귀분석 통틀어 가장 R2값이 높았던 변수를 클릭하면, 해당하는 시각화 그래프를 확인할 수 있습니다.
• TV 광고 지출이 높을수록, 동일(비슷한)한 TV 광고 지출이라면 Radio 지출이 높을수록(색상이 진해질수록) 매출이 상승하는 것을 볼 수 있네요.
하트카운트에 로그인해보세요.
구글 계정으로 로그인하기
(요인 분석은 하트카운트 프리미엄 버전에서 사용 가능합니다. 우측 상단의 'Upgrade' 버튼을 클릭하여 1개월 무료 체험으로 시작해 보세요.)