아래 예제는 특별한 분석 지식이나 경험이 없는 사람들도 화면 이미지를 보고 따라한 후 스스로 해석할 수 있도록 쉽게 작성하였다.
데이터 분석은 그 과정과 절차가 아무리 복잡했다 할지라도 결국에는 분석한 결과물을 일상의 언어로 풀어내어 의사결정권자에게 보고하고 다른 구성원들에게 공유하는 것이 중요하다. 그래서 분석은 설득의 과학이라고도 할 수 있겠다.
분석 과정이 복잡해질수록 그 결과를 타인에게 쉽게 설명하기 어려워져서 분석 결과가 활용되지 못하기 쉽다. 쉬운 분석과 간단한 시각적 표현만으로도 충분히 자신의 주장의 근거로 삼을 수 있다면 굳이 복잡하고 어려운 분석 기법을 활용할 필요가 없다고 생각한다. (물론 advanced 분석기법을 활용할 줄 알지만 의도적으로 사용하지 않는 것과 할 줄 몰라서 안 하는 것에는 차이가 있겠다.)
데이터셋 설명
- 데이터셋: HR dataset
- 주요 변수
- 채용경로 : 공채, 인턴 등
- 근속기간
- 출신대학, 대학구분(국립, 해외, 수도권, top5 등)
- 직군
- 퇴직구분
- 매니저여부
- 성과점수
- 미사용 휴가일수
- 본인.인내력, 본인.실행력, 본인.인지능력
- 매니저.비전, 매니저.소통, 매니저.실행력
- 직원만족도
- 매출액: 천원단위
실습 내용
HEARTCOUNT 스마트 플롯 기능을 사용해서 아래 문제들에 대한 답을 담고 있는 차트를 시각화해주세요.
- HEARTCOUNT 로그인 하기 (크롬 접속 권장, 언어: 한국어)
- 실습 데이터셋을 사용해서 캠페인을 생성해주세요.
- 문제에 대한 각 시각화 화면들을 저장하려면, 아래 방법들을 활용해보세요.
- 개별 북마크로 저장 > 상단 “HTML 형식으로 내보내기”
- 오른쪽 마우스로 저장하거나 스크린샷으로 캡쳐 - 스마트 플롯 뿐만 아니라 드릴다운 등 다른 시각화 기능도 사용 가능합니다.
👉 스마트 플롯 튜토리얼 영상 바로가기
1. 두 변수간의 상관관계 확인하기
1-1. [직원만족도]와 [매니저의 소통능력] 간에 어떤 상관관계가 있는지 알아보세요.
▼ 정답과 해설(클릭)
[해설]
그림1-1(클릭해서 보기)은 직원만족도와 매니저의 소통능력(서베이를 통해 부하직원이 측정) 간의 관계를 scatterplot 형식으로 시각화 한 것이다. 화면상의 개별 점들은 데이터셋(예, 엑셀)을 구성하는 개별 레코드(직원)를 나타낸다.
Scatterplot은 개별 레코드/관측값을 좌표 상에 점으로 흩뿌려 표현하는 시각화 방식으로 산점도라고도 불린다. 직원만족도와 매니저.소통점수 사이의 상관계수가 0.85로 나온다. 상관계수는 두 숫자형 변수(나이, 연봉, 교육시간 등) 사이의 연관성을 -1에서 1사이의 숫자로 계산한 값으로 0.85이면 매우 강한 양의 상관관계가 있다고 이야기한다.
[따라하기]
• 화면 상단의 Y축에 [직원만족도] 선택, X축에 [매니저.소통] 선택
• 상관계수 옆의 icon click (추세선이 추가됨)
1-2. [팀]별로 [직원만족도]와 [매니저의 소통능력] 간의 관계가 어떻게 달라지는지 확인해보세요.
▼ 정답과 해설(클릭)
[해설]
이번에는 개별 점(직원)들을 팀으로 구분하여 살펴 보자. 분석에 사용하는(동원되는) 변수를 차원(dimension)이라고도 하는데, 직원을 직원만족도 x 매니저.소통, 이렇게 두 개의 차원으로 보다가 팀이라는 새로운 차원을 추가하여 살펴보려고 한다. 그림 1-2 확인하기
[따라하기]
• 화면 우측의 색상 메뉴에 [팀구분] 선택
• [팀구분] 선택 후 나타나는 개별 팀들을 하나씩 클릭하여 상관계수가 바뀌는 걸 확인
2. 범주간의 유의미한 차이 탐험하기
2-1. [팀]별 [직원만족도]의 차이를 시각화한 후, 그 차이가 통계적으로 유의미한지 확인해보세요. (hint. 95% 신뢰구간)
▼ 정답과 해설(클릭)
[해설]
팀 별로 직원만족도의 분포가 상이한 것을 확인했는데, 이번에는 서로 다른 팀 간의 직원만족도의 차이가 통계적 유의미한지 여부를 확인해보자. 서로 다른 집단 간 평균값에 유의미한 차이가 있는지 판단하는 전통적인 방법 중 대표적인 것은 집단 내(개별 팀) 만족도 차이(분산)보다 집단 간(서로 다른 팀 간) 차이가 크게 나는지를 확인하는 것이다.
그림2-1(클릭해서 보기)처럼 개별 팀별로 평균 만족도의 95% 신뢰구간을 표시하여 신뢰구간이 서로 겹치지 않는 경우 집단 간 통계적으로 유의미한 차이(차이가 우연이 아니라 실재 존재)가 있다고 판단할 수 있다. 기술팀의 경우 다른 어떤 팀과 비교하더라도 통계적으로 유의미하게 낮은 만족도를 보이는 것을 확인할 수 있다.
물론, 통계적으로 유의미한 것(Statistical Significance)이 반드시 실용적 관점에서 유의미한 것(Practical Significance)도 아니고 통계적으로 유의미하지 않은 패턴 역시 얼마든지 실용적으로 활용될 수 있다.
95% 신뢰구간의 정확한 수학적 정의는 우리가 상식적으로 이해하고 있는 개념(모집단 전체의 평균값이 해당 신뢰구간 안에 존재할 확률이 95%이다)과는 좀 다르다. “실제 또는 상상의 모집단(전체 직원)의 진짜 평균값(true mean)이 해당 구간에 존재할 확률이 운이라고 치부하기에는 매우 높다.” 정도로 이해하면 될 것 같다.
[따라하기]
• 화면 상단의 X축을 [팀구분]으로 변경
• 기술팀의 신뢰구간 클릭하여 평균 신뢰구간이 겹치는지 확인
• 상단의 5개 icon 중 두번째 icon을 클릭하여 95% 신뢰구간 표시
2-2. [사업장위치]별 [불량건수]의 분포를 확인해보세요. (hint. 박스플롯, 대표값)
▼ 정답과 해설(클릭)
[해설]
서로 다른 집단간의 변수값의 분포를 비교하는 또 다른 대표적인 방법으로 박스플롯이라는 것이 있다. (박스플롯[box plot]에 대한 보다 자세한 설명은 구글이나 네이버에 검색하면 나옴)
그림 2-2(클릭해서 보기)에서 아래로 길게 펼쳐져 있을수록 해당 사업장의 직원별 불량건수의 분포가 넓고 그 반대일수록 분포가 좁다고 해석할 수 있다. 중간의 박스에는 중앙값(median)을 기준으로 상하위 50%의 데이터가 포함되어 있다. 서울과 일본의 경우 상대적으로 불량건수의 분포가 다른 사업장보다 매우 좁고 (개인간 편차가 작음) 대전과 중국의 경우 개인간 편차가 큰 것을 확인할 수 있다.
[따라하기]
• 화면 상단의 Y축을 [불량건수], X축을 [사업장위치]로 변경
• 상단의 5개 icon 중 첫번째 icon을 클릭하여 boxplot을 통한 분포 표시
• (선택) 더 예쁘게 보려면 색상을 [사업장위치]로 표시
2-3. [팀]별 [직원만족도] 차이가 [사업장위치]에 따라 변화가 있진 않은지 확인해보세요. (hint. 하위그룹으로 한 차원을 추가하기)
▼ 정답과 해설(클릭)
[해설]
사람은 95% 신뢰구간이나 p-value 같은 통계적 개념을 통해서가 타인이 주장하는 내용과 표현방식이 일치하여 그 주장이 핍진성을 얻을 때 설득당한다.
서로 다른 팀 간에 존재하는 직원만족도의 차이가 사업장 위치와 무관하게 나타나는 보편적 현상이라는 것을 아래와 같이 시각화하면 그 주장이 더욱 설득력을 얻을 것이다. 그림 2-3 확인하기
[따라하기]
• Y축을 [직원만족도], X축을 [사업장위치], 하위그룹을 [팀구분]으로 선택
• 첫번째 아이콘(bar chart) 선택
• 사업장위치 옆의 sorting icon을 클릭하여 내림차순으로 정렬
3. KPI 개선 전략을 뒷받침하는 시각화 자료 완성하기
3-1. [직원만족도]를 개선하려면 [매니저의 소통능력]에 개선이 필요하다는 주장을 한다고 가정 후, 해당 주장을 뒷받침할만한 시각화 차트를 완성해보세요.
▼ 정답과 해설(클릭)
[해설]
팀별로 만족도 차이가 나는 것은 이제 반박하기 어려운 사실이 되었다. 다음에 할 질문은 왜 차이가 나는가, 무얼 바꾸어서 개선할 것인가 인데, 앞에서 매니저의 소통 능력과 만족도에 큰 양의 상관관계가 있는 걸 확인했다.
직원만족도를 개선하려면 매니저가 직원과 소통하는 방식에 개선이 필요하다는 주장을 하기 위해서 그림 3-1(클릭해서 보기)과 같은 시각화 표현이 가능하겠다.
개별 팀 내에서도 소통점수가 낮아질수록(색깔이 옅어질수록) 만족도가 떨어지는 것을 시각적으로 확인할 수 있다.
• 매니저.소통 점수는 본래 숫자형 변수이지만 0~10점, 10~20점, … ,
90~100점과 같은 방식으로 구간으로 분할하여 범주형 변수(성별[남, 녀], 직군[개발, 생산, 영업])로 변환할 수 있다. 실습용 툴(HEARTCOUNT)에서는 해당 변수 변환이 자동으로 이루어진다.
[따라하기]
• X축을 [팀구분], 하위그룹을 [매니저.소통]으로 변경
• [팀구분] 옆 sorting icon을 눌러 내림차순으로 정렬
맺음말) 통제할 수 있는 것과 없는 것을 잘 구분하고, 통제의 효과가 큰 요인에 집중
직원 만족도(몰입)를 높이기 위해 우리가 매니저들에게 강조할 수 있는 요인들은 헤아릴 수 없이 많다. 정부의 시장에 대한 규제의 효용은 정부가 시장이 작동하는 원리를 정확히 파악하여 시장 참여자들을 항상 옳은 결정으로 안내하는 데 그 가치가 있기보다는 시장 참여자들이 불확실성에 압도당하여 멍청한 의사결정을 내리지 않도록 의사결정 행위의 복잡성을 제한하는 데 있다는 이론이 있다.
이제는 세상에 널리 알려진 구글의 산소 프로젝트의 가치도 그 내용의 참신함이 아니라(실제 내용은 하품이 나올 정도로 진부하다), 데이터를 통해 확인한 훌륭한 리더들의 구체적인 행동기준들을 *8~10가지로 제한하여 리더들이 직원과 관련한 의사결정을 내리는 일의 불확실성을 줄여준 것에 있다고 생각한다.
- 2018년에 두개 항목이 더 추가되어 10개임: https://rework.withgoogle.com/blog/the-evolution-of-project-oxygen/
패러다임이 바뀌려면 새로운 패러다임으로 과거의 패러다임에서는 쉽게 풀리지 않았던 문제가 해결되어야 한다. People Analytics가 새로운 패러다임으로 자리 잡으려면 성과나 생산성 등 사업 성과와 직접적 관련이 있는 문제에 실용적인 해결책을 제시하고 그 효과를 증명할 수 있어야 한다.
그러기 위해서는 HR이 통제/개입할 수 있는 것과 없는 것을 우선 구분하고, 내가 개입할 수 있는 것들 중 그 개입의 효과가 가장 큰 요인들을 발견하고 실천해야 한다.
HR이 지금까지 상식(common sense; 좋은 매니저 -> 높은 몰입/생산성)으로 알고는 있지만 실천(common practice)하지 못 한 가장 큰 이유는 내가 개입할 수 있는 것들 중 그 개입의 효과가 큰 요인들을 정량적으로 증명하고 실제 개입하여 지표가 개선되는 것을 경험하지 못했기 때문이다. 어렵지만 충분히 해낼 수 있는 일이라고 믿는다.