데이터셋 설명
어느 보험사의 고객 데이터입니다.
주요 변수
- age: 나이
- sex: 성별
- bmi: 신체 비만 지수
- children: 자녀수
- smoker: 흡연여부
- region: 보험 청구인이 사는 지역
- medical.cost: 의료비 청구액
- insurance.claim: 최근 6개월 이내 의료비 청구 여부
실습 내용
HEARTCOUNT의 요인분석과 익스플레이너 기능을 사용해서 KPI의 요인을 분석해보세요.
- HEARTCOUNT 로그인 하기 (크롬 접속 권장, 언어: 한국어)
- 실습 데이터셋을 사용해서 캠페인을 생성해주세요.
- 문제(질문)에 대한 각 분석 결과 및 시각화 화면들은 저장(정리)하려면 아래 방법들을 활용해보세요.
* 개별 북마크로 저장 > 상단 “HTML 형식으로 내보내기” 기능 사용해서 html 형식으로 저장
* 차트의 경우, 오른쪽 마우스로 이미지를 저장
* 스크린샷으로 캡쳐 - 요인분석과 익스플레이너는 HEARTCOUNT 프리미엄 기능으로, 무료 버전 사용자의 경우 유료 플랜으로 업그레이드하거나 HEARTCOUNT 프리미엄 1개월 무료 체험을 신청하면 사용 가능합니다.
* HEARTCOUNT 프리미엄 1개월 무료 체험하기
* 요인분석 비디오 튜토리얼 바로가기
* 익스플레이너 비디오 튜토리얼 바로가기
1. 의료비(medical cost) 요인 분석
1-1. 여성을 대상(상단 ‘필터링’ 기능 사용)으로 했을 때 의료비를 가장 잘 설명할 수 있는 두 변수의 조합은 무엇인가요? 설명력은 어느 정도인가요?
1-2. 나이가 50세 이하인 사람으로 분석 대상을 필터링 한 후 의료비에 대해 요인 분석을 수행한 경우, 독립변수 BMI의 결정계수는 얼마인가요? 결정계수가 높다는 건 어떤 의미인지 일상의 언어로 설명해보세요.
1-3. “1-2”에서 나온 요인 중 가장 설명력이 높은 변수의 조합과 해당 변수로 표현된 차트에 대한 해석(설명)을 해주세요. 아래 그림처럼 “변수 순서 바꾸기” 아이콘을 누른 후 바뀐 차트에 대한 해석(설명)을 해주세요.
1-4. “1-2”에서 파생변수(_bin, _percentile)을 사용하지 않고 요인분석을 수행해보세요. (아래 그림 참고) bmi_bin(파생변수)의 결정계수가 bmi보다 높게 나온 이유는 무엇인가요?
2. 익스플레이너
2-1. 전체 데이터를 가지고 의료비에 대해 분석한 결과의 세번째 요인은 무엇이고, 어떤 조건에서 의료비가 가장 높았나요? 차트를 설명해 보세요.
2-2. “2-1” 분석 결과의 여섯번째 요인에서 의료비의 총합에서 차지하는 비중이 가장 컸던 변수의 조합은 무엇인가요?
출제자의 모범 답안 참고하기
모든 실습을 마쳤다면, 모범 답안 영상을 참조하여 자가 채점을 진행해보세요!