데이터셋 설명
• dataset : 인사 데이터로, 각 레코드는 직원 한 명 한 명에 대한 관찰/측정/수집값들로 구성되어 있습니다.
• 주요 변수
◦ 채용경로 : 공채, 인턴 등
◦ 근속기간
◦ 출신대학, 대학구분(국립, 해외, 수도권, top5 등)
◦ 직군
◦ 퇴직구분
◦ 매니저여부
◦ 성과점수
◦ 미사용 휴가일수
◦ 본인.인내력, 본인.실행력, 본인.인지능력
◦ 매니저.비전, 매니저.소통, 매니저.실행력
◦직원만족도
◦ 매출액: 천원단위
실습 내용
HEARTCOUNT의 시각화 기능([가]EDA)과 자동 분석 서비스([나], [다])을 사용해서 아래 문제들에 대한 답을 담고 있는 차트를 시각화하거나 분석 결과를 도출해보세요.
• HEARTCOUNT 로그인 하기 (크롬 접속 권장, 언어: 한국어)
• 실습 데이터셋을 사용해서 캠페인을 생성해주세요.
• 문제(질문)에 대한 각 시각화 화면들을 저장하려면, 아래 방법들을 활용해보세요.
◦ 개별 북마크로 저장 > 상단 “HTML 형식으로 내보내기" 기능 사용해서 html 형식으로 저장
◦ 오른쪽 마우스로 이미지를 저장하거나, 스크린샷으로 캡쳐
• HEARTCOUNT 기능별 비디오 튜토리얼 바로가기
• [나]와 [다] 실습에 쓰이는 자동 분석 서비스는 HEARTCOUNT 프리미엄 기능으로, 무료 버전 사용자의 경우 유료 플랜으로 업그레이드하거나 HEARTCOUNT 프리미엄 1개월 무료 체험을 신청하면 사용 가능합니다.
◦ HEARTCOUNT 프리미엄 1개월 무료 체험하기
아래 문제들을 그대로 따라해도 좋고, 힌트로 삼아 추가적인 질문들을 떠올려보셔도 좋습니다.
[가] EDA
아래 질문에 따라 자유롭게 EDA를 해보세요.
- 직원만족도
a. 직원만족도와 상관관계가 가장 높은 리더십 역량은 무엇인가? (hint. 스마트 플롯)
b. 해당 관계를 사업장으로 구분해서 관찰했을 때 관계가 가장 높았던 낮았던 사업장은? (hint. 화면분할 or 색상 기능을 통해 하위 그룹으로 분류)
c. 직원만족도의 분포(boxplot)를 팀구분(X축)으로 살펴보았을 때 아웃라이어(특이값)들이 많이 관측되는 팀은 어딘가?
d. 평균 직원만족도가 가장 높은 팀과 낮은 팀은 어디? (hint. 하위그룹: X축)
e. 개별 팀의 구성원들을 연령대(하위그룹: 나이_bin)로 drill-down했을 때 개별 팀내에서 연령대와 직원만족대 간에 어떤 패턴이 존재하는가? - 성과점수
a. 성과점수와 상관관계가 가장 높은 숫자형 변수는 무엇이고 관계의 크기는 얼마인가? (hint. 스몰 멀티플즈를 이용해보세요.)
b. 사업장위치 x 대학구분 x 성별로 성과점수를 드릴다운한 경우 평균 성과점수가 가장 높은 조건은? (hint. 드릴다운을 이용해보세요.)
c. b.와 동일한 조건에서 시각화 방식 icon(아래 이미지)을 하나씩 클릭해가며 살펴 봅시다.
d. 직원수가 10명 이상인 “출신대학" 중 평균 성과점수가 가장 높은 곳은? (hint. 드릴다운 - 레코드 개수 필터링)
[나] 요인 분석
[가]에서 EDA로 직원만족도와 성과점수와 관련된 패턴들을 찾았다면, 이번에는 요인분석(회귀분석 결과) 메뉴를 통해 두 목표 변수(직원만족도, 성과점수)의 차이를 잘 설명할 수 있는 요인들을 해석하는 연습을 해봅시다.
- 직원만족도의 차이를 가장 잘 설명할 수 있는
• ‘독립’변수들을 개별적으로 살펴 보고 해석해 봅시다. 각 변수의 R2(결정계수)와 시각화 결과를 함께 비교해 보며, 회귀분석에서 차이를 설명한다는 게 어떤 것인지 이해하려고 노력해 봅시다.
• 요인 분석 결과 중 변수 두 개의 조합(테이블 상단에 있는 버튼)들만을 따로 살펴 보고 해석해 봅시다. 두 개의 ‘독립’변수로 직원만족도의 차이가 더 잘 설명되나요? 자동으로 선택된 시각화 결과가 마음에 들지 않는다면, 내 주장을 더 잘 담을 수 있는 형식으로 바꾸어 보는 연습도 해보시면 좋겠습니다. - 성과점수에 대해서도 동일한 작업을 해보아요.
[다] 두 집단 비교하기
- 비교 분석
1-1. (퇴직구분 변수 사용) 재직자와 퇴직자를 구분하는 가장 두드러진 특성은 무엇이며 두 집단간에 어떤 차이가 존재하나요?
1-2. 직원만족도가 높은(상위 20%) 집단과 낮은(하위 20%) 집단 간 어떤 특성 차이가 가장 두드러지나요?
1-3. 성과점수가 높은(상위 20%) 집단과 낮은(하위 20%) 집단이 직군 관점에서 어떤 차이가 있는지 기술해보세요. - 마이크로세그먼트
2-1. 퇴직구분 변수로 yes/no를 분류하는 모형을 만든 경우, yes를 가장 “정확히” 예측하는 규칙은 무엇인가요?
2-2. “2-1” 분석 결과 중 가장 많은 yes(퇴사자)를 분류하는(즉, 재현율/recall이 가장 높은) 변수의 조합(규칙)은 무엇인가요?
2-3. 성과점수 기준 top20% vs. bottom20%를 분류하는 규칙을 찾은 후, 통제불가능한 변수들(예, 직군, 사업장)을 제거하여 모델링하는 작업을 반복하여, 통제가능한 변수들로 구성된 모델을 참고하여, 성과점수 최적화 방법에 대해 제안해보세요. (*통제가능한 변수, 회사의 정책 변경이나 개입으로 바꿀 수 있는 변수들)
출제자의 모범 답안 참고하기
모든 실습을 마쳤다면, 모범 답안 영상을 참조하여 자가 채점을 진행해보세요! 이번 실습의 경우, [다]의 모범 답안만 제공합니다. 추가적으로 궁금한 부분은 슬랙에 남겨주시면 답변 드리겠습니다.