공부 잘 하는 아이들은 뭐가 다를까?

이 글은 하트카운트 사용자가 직접 블로그에 작성한 글로, 작성자의 개인 블로그에서도 읽으실 수 있습니다.

시작하며

공부, 답이 없는 길에 대해 데이터로 파헤쳐보다

전세계를 통틀어서 모든 부모의 염원은 내 자식이 잘 되는 것이고, 학창 시절에 더 나은 성적을 내는 것이 그나마 상대적으로 덜 고생하는 길이라는 걸 알기에 열심히 쏟아내는 부모의 잔소리와 당장 공부가 불러오는 가치가 눈 앞에 보이지 않는 아이들의 반발이 매 순간마다 충돌한다. 그런 갈등에 대한 솔루션을 제공할 것은 아니지만, 적어도 ‘데이터 하는 사람’으로서 그러한 충돌의 순간에 쏟아져 나오는 고함들, 즉 “니가 그렇게 친구들이랑 놀러 다니니까 성적이 안 나오지!”라는 분노라든가, “나도 어떻게 공부해야할지 잘 모르겠어요” 혹은 “엄마가 학원 안 보내 주니까 내가 성적이 안 나오는 거잖아요” 라는 철 없는 반박들의 정합성에 대해서 따져볼 수 있다면 참 좋지 않을까? 요즘 핫한 ChatGPT는 이 답 없는 질문에 대해서 뭐라고 대답할까?

한 번 직접 물어보자.

대답을 보면 알겠지만 상당히 뻔한 이야기를 한다. ChatGPT가 아무리 성능이 좋다고 해도, 그 핵심은 인터넷에 있는 것을 ‘잘 요약해서 최대한 그럴싸한 답을 해주는’ 기능을 수행하는 것이다. 그런데 여기에는 출처도 없고 근거도 마땅치 않다. 따라서 ‘숨겨져 있는 답’들에는 결국에는 직접 데이터를 파고 들어 정량적 근거를 찾는 수 밖에는 없다.

오늘 분석의 주제가 된 데이터는 그런 질문들에 대해 대답해보기 위해 포르투갈의 두 연구자, P. Cortez와 A. Silva가 2008년에 작성한 논문 <Using Data Mining to Predict Secondary School Student Performance(데이터 마이닝을 활용하여 고등학교 학생의 성적 예측하기)>에 활용한 분석 데이터다. 포르투갈의 두 고등학교 Gabriel Pereira와 Mousinho da Silveira의 학생들 649명(적지 않은 표본)을 대상으로 성적과 가정 환경, 교육 수준 및 시험 성적을 집계했다.

한국이 아니다보니 국내의 상황에 그대로 적용할 수는 없지만(대한민국만큼 학구열 강한 곳이 많지 않기에), 사람 사는 것 다 엇비슷하니 학생들이나 부모들이나 대동소이하지 않을까. 여하튼, 적어도 포르투갈에서는 어떤 친구들이 더 공부를 잘 했는지, 그리고 선입견으로 대부분 가지고 있는 질문들이 실제로 그러한지에 대해서 데이터에 물어 보자.

(참고로 데이터를 직접 다운로드할 수 있는 UCI Machine Learning Repository에는 데이터 분석/모델링을 연습해볼 수 있는 좋은 데이터셋들이 많이 존재하니 관심이 있다면 확인해보자)

🤭

참고로, 이번 분석은 페이스북에서 광고를 통해 우연찮게 알게 된 하트카운트라는 국산 데이터 분석 툴을 통해 진행했다.데이터 분석을 하다 보면 어쩔 수 없이 고객에게 공유하기 위해서든 내가 이해하기 위해서든 차트를 많이 그려봐야 하는데, 코딩 없이 클릭 몇 번만으로(혹은 간단한 질의 방식으로) 차트를 그릴 수 있는게 참 편했다. 게다가 자동 분석 기능이 아닌 시각화 기능만 사용할 시 비용을 전혀 부담하지 않아도 되었다…!(+ 혹시 EDA를 처음 접하는 사람들이 있다면, 회사에서 관련한 내용들에 대해 블로그와 커뮤니티도 운영하는 것 같으니 참고해보자.재미있게 읽은 EDA 관련 글: EDA(탐험 분석)에 대하여커뮤니티 슬랙: https://www.heartcount.io/share/slack )

탐험적 데이터 분석 (Exploratory Data Analysis)

데이터 분석의 용어 중 하나인 탐험적 데이터 분석(줄여서 EDA)는 모든 데이터 분석의 시초가 되는 작업이다. 전통적 의미의 데이터 분석은 가설을 세우고 그 가설에 데이터가 적합한지 확인하는 통계학적이고 연역적인 방식이다. 반면, 귀납적으로 데이터에 감추어진 패턴들을 탐험해보면서 가설을 발굴해나가는 작업이 바로 탐험적 데이터 분석(Exploratory Data Analysis, 이하 EDA)이다.

통념적으로, 공부에 영향을 준다고 알려진 것들을 크게 두 가지로 묶어 보자면 개인적 요인(노력, 목표, 동기 등)과 환경적 요인(가족, 인프라 등)이 있을 것이다. 그렇다면 실제 데이터에는 그러한 패턴이 존재할까? 주어진 데이터를 탐험해보면서 패턴과 쓸만한 가설들을 발굴해보자.

EDA 1) 데이터가 어떻게 구성되어 있나요?

데이터가 33개의 칼럼과 649개의 레코드로 이루어져있다는 것은 쉽게 말하자면 33개의 열과 649개의 행이 있다는 말이다.
- 서베이 데이터인 것을 감안하면, 행 하나는 학생 한 명을 의미할 것이다.

칼럼은 데이터 분석의 용어로는 ‘변수’라고도 부른다. 이 데이터는 어떤 변수들로 구성되어 있을까?

우선 우리의 가장 주요 관심사는 성적이다. 가장 주요 관심사가 되는 변수를 전통적인 통계학에서는 종속 변수라고도 부른다. 다른 변수들의 변화에 따라 변하는 종속성 dependency 을 띄고 있다는 뜻이다. 반응 변수, 결과 변수 등으로도 불리운다.

‘점수’로 검색해보니, 세 개의 변수가 등장한다. 중간, 기말, 총 점수가 있다.
성적과 같이 숫자로 된 변수의 경우 히스토그램을 확인해 보는 것이 유익하다.
- 점수의 최대/최소값을 보니 아무래도 총점이 20점 가량 되는 시험인 것 같다.
- 성적 데이터가 으레 그렇듯이, 정규분포의 형태를 띄고 있다. 중간 정도 하는 학생들이 가장 많고, 극단을 차지하는 학생들이 소수 존재한다.

성적과 연관이 있을 만한 변수들(독립 변수)은 다음과 같은 것들이 존재한다.
변수가 많아서 토글 안에 숨겨 두었으니 확인해보자.

[펼쳐서 독립 변수들 알아보기]

나이
• 나이는 대부분의 경우 학년과 동일 개념일 것이다. 간혹 학교를 늦게 들어와서 19살 이상인 학생들도 존재하는 듯 하다.
• 학년별로 시험도 다르고 점수도 각각 매겨질 것이기에, ‘나이가 많을수록 성적이 더 잘 나온다’ 등의 분석은 성립하지 않을 것이다.
• 다만, 다른 변수와 엮어서 현상을 볼 때 조금 더 다양한 관점으로 성적을 조망할 수 있다. 예를 들면, ‘나이가 같을 때, 부모님의 교육 수준이 더 높았다면 성적이 더 나을까?’ 같은 질문을 추가적으로 던져볼 수 있다.

주거지
• 도시 혹은 시골로 분류된다.
• 분석 대상인 두 학교, Gabriel Pereira와 Mousinho da Silveira의 위치를 구글 지도에서 찾아보면 각각 Evora라는 도시와 Portalegre라는 도시에 위치해 있다. 따라서, 여기서 ‘도시’라 함은 각각 Evora와 Portalegre를 의미할 것이다.
• Evora와 Portalegre 각각 도시의 특성이 존재할까? 어떤 도시가 상대적으로 ‘더 잘 사는’ 도시일까? (데이터 분석 데이터 내에 존재하는 팩트 뿐 아니라, 데이터를 둘러싼 정황을 아는 것 또한 중요한 일이 된다). Numbeo라는 사이트에서는 도시 수준의 생계비(Cost of Living) 지표를 제공한다. 평균적으로는 Evora가 ‘더 잘 사는’ 도시인 듯 보인다(물론 학생 개개인의 가정 별 편차가 분명히 존재하기는 하겠지만 말이다).

가족 구성원 수
• 주어진 데이터에서는 3인 이상 혹은 이하로 이루어진 가정으로만 분류하고 있다.
• 절반 이상이 3인 이상 가정인 것을 알 수 있다.
• 3인 이상이라 해도, 부모의 생존여부 등에 따라 맥락이 달라질 수 있을 것이다.

부모 동거여부
• 대부분의 경우 부모가 함께 사는 중인 가정 출신의 학생들이다.
• 별거 여부가 학생 성적에 영향을 미치는지 알아볼 수 있을 것이다.

부모 교육수준
• 아버지와 어머니의 교육 수준을 0~4로 나누어 측정하였다.
◦ 0은 미교육자, 1은 초등교육, 2는 중등교육, 3은 고등교육, 4는 그 이상(아마도 대학 교육)의 교육을 받은 것을 의미한다.
• 평균적으로 아버지들의 교육 수준이 더 낮은 것을 알 수 있다.
◦ 위에서 살펴보았듯이, 지역 별 소득 수준의 차이가 있기 때문에, 학교 별로 부모 교육수준의 차이 또한 존재할 것으로 보인다. 이 부분은 뒤에서 더 질문해 보도록 하자.

부모 직업
• 네 개의 주요 직군 및 기타 직군으로 이루어져 있으며, 네 직군은 공무원, 교사, 헬스케어(간호사, 의사 등), 주부로 이루어져 있다.
• 어머니들의 직업 중 주부의 비율은 아버지들의 직업 중 주부의 비율보다 상대적으로 높았다.
• ‘기타’로 분류되어있는 세부 직군들을 알 수 있다면 더 풍부한 분석이 가능했으리란 아쉬움이 있다.

학교 선택이유
• 현재 다니고 있는 학교를 선택한 이유에 대한 설문 응답이다.
• 절반 가량의 학생이 좋아하는/관심있는 것을 가르쳐주기 때문에 선택했다고 한다(포르투갈은 고등학교에서도 학교 별로 가르치는 과목에 차이가 있는가…싶기도 하다).
• 두 학교 별 응답의 차이가 존재할 것으로 예상된다.

고등교육희망여부
• 여기서의 고등교육 희망여부는 대학 진학 희망여부를 의미하는 것으로 보인다.
• 대부분이 진학을 희망하고 있었다(580/649).
• 진학 희망 여부에 따른 성적의 차이를 살펴보는 것이 필요하다.

사교육 여부, 수학 혹은 국어
• 우리나라와 달리, 포르투갈은 사교육을 받는 학생들의 수가 그렇지 않은 학생들의 수에 비해서 훨씬 적었다.
• 사교육 여부와 성적의 관계를 데이터를 통해 살펴볼 필요가 있어 보인다.

가족 교육 지원여부
• 가족들이 학생의 교육을 적극적으로 지원해주는지에 대한 여부를 yes or no로 표현했다.
• 절반 이상(398/641)이 가족의 지원을 받고 있었다.
• ‘가족이 적극적으로 교육을 지원해준다’는 것은 학생 개개인이 느끼는 상대적인 개념일 수 있겠다는 생각이 든다.
• 가족이 적극적으로 지원해줄수록 공부를 더 잘 하는지에 대해 알아보도록 하겠다.

자택 인터넷 여부
• 자택에서 인터넷을 사용할 수 있는지 여부를 yes or no로 표현했다.
• 인터넷을 사용 가능하다는 것은 더 많은 정보에 더 빠르고 쉽게 접근이 가능하다는 뜻이니, 이러한 환경이 학생의 성적에 미치는 영향도 알아보자.

연애여부
• 연애를 하는 학생의 수는 239명으로 전체의 절반 이하였다.
• 통념적으로 연애를 하는 학생들은 성적이 낮다는 선입견이 있는데, 실제로도 그런지 알아보자.

학교 별로 차이가 존재하지는 않을까? 이 부분은 아래에서 더 확인해보자.

EDA 2) 성적과 다른 변수와의 관계 (이변량 분석)

그럼 실제로 성적과 다른 변수들간에는 어떠한 관계가 존재할까? 변수 간 관계성을 파악하기에 가장 직접적인 방법은 바로 상관계수다. 상관계수는 보통 숫자와 숫자 간의 관계를 표현할 때 사용하는 피어슨 상관계수를 지칭하는 경우가 대다수다.

상관계수가 +1에 가까우면 양의 상관관계가 있다는 것이다(한 값이 커지면 다른 값도 덩달아 커짐)
반대로, 상관계수가 -1에 가까우면 음의 상관관계가 있다는 것을 나타낸다(한 값이 커지면 다른 값은 오히려 작아짐)
상관계수가 0에 가까우면 상관관계가 없다는 것을 의미한다(한 값이 커지든 작아지든 다른 값은 자기 맘대로 움직임)

그럼 총점수와 다른 모든 변수와의 상관관계를 확인해보자. 작은 박스 하나하나에 바차트 혹은 산점도가 그려진다. 이처럼 일련의 유사한 차트로 하나의 화면을 구성한 것을 스몰 멀티플즈라고 부른다. 데이터라는 바다에서 그 다음에 어디로 항해의 방향을 잡아 분석을 진행할 지 파악할 때 유용하다.

2-1) 총점수과 숫자형 변수들과의 관계

먼저 총점수과 숫자형 변수들과의 관계부터 확인해보도록 하자.

참고로 위쪽에 배치된 산점도는 총점수와 다른 숫자로 된 변수들 각각의 상관계수에 따라 정렬되어 있다.

가장 연관성이 높은 변수들(상관계수가 높은 변수들)은 물론 기말고사점수와 중간고사점수다. 두 점수의 합 + 기타 평가지표가 총 점수가 되었을 것이기에 높은 양의 상관관계를 띄고 있다.

2. 그 다음으로는 F횟수다. 당연히 F를 많이 받았다면 총점수는 낮았을 것이다(상관계수 -0.39)

3. 중요한 것은 성적과 직접적인 연관이 아닌 간접적 영향을 미치는 변수들이다. 그 다음으로 상관관계가 높은 변수는 주평균공부시간이다(상관계수 +0.25).

총점수과의 상관계수가 1이 아니라는 것은 공부시간만으로는 설명되지 않는 다른 원인들이 존재한다는 것이다. 똑같은 공부시간을 투자했는데도 동일한 성적이 나오지 않는 이유들이 존재할 것이다.
해당 변수에는 평균의 함정이 숨어 있을 가능성이 농후하다.
* 해당 데이터에는 기말고사점수와 중간고사점수가 포함되어 있다. 즉 이 데이터는 한 학기 전체에 대한 설문이며, 해당 설문을 어느 시점에 진행했느냐에 따라서 주평균공부시간은 의미가 완전히 달라진다. 중간고사를 치뤘던 시점에 진행했다면, 중간고사를 보기까지 주평균 공부한 시간을 의미할 것이고, 기말고사라면 기말고사 시기의 주평균 공부 시간을 의미할 가능성이 높다.
* 게다가 보통 시험기간에는 평상시보다는 더 공부량이 많을 것이다. 따라서 응답자(학생)가 이 질문에 대답할 때 평소 기준으로 대답했는지 혹은 시험기간 기준으로 대답했는지에 따라 의미가 달라진다.
** 평균의 함정이라 함은 이런 의미이다. 예를 들어 이 설문을 5주차에 진행했고 다음과 같은 세 명의 학생 A,B,C가 각각의 주 평균 학습시간이 3시간이라고 동일하게 응답했다고 가정해보자. 그리고 아래의 표는 실제로 각 주차별 각각의 학생이 공부에 투자한 시간이다.

학생	1주차	2주차	3주차	4주차	5주차
A	1	2	3	4	5
B	3	3	3	3	3
C	0	0	0	0	15

학생 A는 학기 초반에는 놀다가 시험기간(예를 들면 7,8주차)가 가까워질수록 더 시간을 투자한 학생이다.
반면 학생 B는 처음부터 시험기간까지 꾸준히 본인의 시간을 투자하는 학생이다.
게다가 학생 C는 1~4주차는 실컷 놀다가 시험기간이 다가오자 열심히 공부하는 학생이다.
그런데 세 학생의 주 평균 학습시간은 3시간으로 동일하다! 평균만으로는 해당 학생이 얼마나 평소에 열심히 공부하는지를 정확히 알 수 없는 이유다.
* 물론 이런 변수들을 전부 통제할수는 없기에, 이 분석에서는 학습시간이 동일하다면 동일하게 열심히 한 학생으로 가정해야 할 것이다.

그 다음으로 다음과 같은 변수들과의 관계를 알 수 있었다.

부모의 교육수준과 총점수는 약한 양의 상관관계를 보였는데, 이 중에서도 어머니의 교육수준과 더 높은 상관관계를 보였다(모: 0.24, 부: 0.21)

알코올 섭취량이 많을수록 총점수가 낮아지는 약한 음의 상관관계를 보였다. 특히, 주중 알코올 섭취량이 주말 알코올 섭취량보다 총점수와의 상관관계가 더 강했다.

등하교 시간이 길수록 총점수가 낮아지는 약한 음의 상관관계를 보였다.

하교 후에 공부 이외의 자유시간이 많을수록 총점수가 낮아지는 약한 경향성이 있다.

반면 성적과의 상관관계가 전혀 없어 보이는 듯한 변수들도 존재한다.◦통념적으로는 친구들과 많이 노는 학생들일수록 성적이 잘 안 나올 것 같은데, 그 상관관계는 0에 가깝다.

또한 가족관계가 좋을수록 성적이 좋을 것이라는 추측을 해 볼 수 있겠지만, 상관관계는 0에 가깝다.

2-2) 총점수과 범주형(카테고리형) 변수들과의 관계

숫자형 변수와 범주형 변수들간의 관계는 상관관계와 같이 1차원적으로 바로 이해할 수 있는 방법이 많지 않다. 조금 더 통계적 접근(가설 검정)을 취해 보자면 t검정 등의 방법을 사용할 수 있지만, 우리는 지금 EDA를 하고 있다. 여기서는 평균 수준의 차이만 먼저 이해해보자.
바 차트를 통해 범주 간 주어진 숫자(총점수)의 평균적 차이를 확인할 수 있다.

범주형 여러 패턴들 중 특징적인 몇 가지를 알아보자.

먼저 가장 평균 수준에서 큰 차이를 보이는 것은 고등교육희망여부다.

여기서 고등교육 희망 여부라는 것은 아마도 대학 진학 희망여부를 의미하는 것으로 보인다.
고등교육을 희망하는 학생들이 그렇지 않은 학생들에 비해 더 총점수가 높았다(회색, +3.4).

이러한 패턴은 다른 변수들로 더 나누어 볼 시(학교 별 차이 등) 더 재미있는 패턴이 발견될 것으로 보인다.

2. 반면 평균적인 차이가 전혀 없는 것으로 보이는 변수도 있었는데, 바로 부모의 동거여부였다.

직관적으로 생각해 보면 부모의 동거 여부가 성적에 큰 영향을 미칠 것 같지만, 동거 여부와 상관 없이, 평균적으로는 총점수가 11.91로 동일한 것으로 보인다.
그러나 여기서 성급하게 ‘성적은 동거여부와 큰 상관이 없더라’라고 결론지을 수 없다(위에서 언급한 평균의 함정을 생각해보자). 이에 대한 자세한 내용은 뒤에서 더 살펴보자.

3. 부모 직업에 따라서 또한 큰 차이를 보였다.

부 혹은 모가 교사일 때(회색) 가장 좋은 성적을 보였다(각각 13.14 / 13.58).
부 혹은 모가 주부일 때(초록색) 가장 좋지 않은 성적을 보였다(각각 11.04, 11.43).

4. 사교육 여부에 따라서는 오히려 사교육을 받을 때(회색) 평균적으로 성적이 소폭 낮았다(11.21). 그러나 그 차이가 크지 않아 유의미한 차이는 아닌 것처럼 보인다.

5. 자택에서 인터넷 사용이 가능한지 여부에 따라서(회색: 사용가능, 노란색: 사용 불가능) 평균 1점 이상의 차이가 발생했다.

6. 주거지가 어디인지에 따라서 총점수 평균의 차이가 발생했다(노란색: 도시, 회색: 시골)

💡

여기까지만 보면, 개인의 노력/목표와 각 개인이 속한 배경(환경, 부모 등)이 성적에 영향을 미치고 있는 것으로 추정해 볼 수 있다. 실제로 그러한지 더 확인해보자.

EDA 3) 총점수와 두 가지 이상의 변수들 간의 관계

이번에는 하나의 변수 뿐 아니라 여러 변수와의 상관관계를 파악해보도록 하겠다.
먼저 여기에서는 드릴다운, 비교분석 등의 EDA 기술을 적용해 보자.
* 드릴다운이라는 것은 평균, 총합 등의 보편적 관점을 다양한 관점으로 ‘쪼개어 보는’ 것이다.

3-1) 학교 간 차이 확인하기

먼저 두 학교 간 차이를 확인해보자.
추가적인 분석을 진행하기 전에, 각 학교에 대해서 조금 더 이해해 보자.

분석 대상인 두 학교, Gabriel Pereira와 Mousinho da Silveira의 위치를 구글 지도에서 찾아보면 다음과 같다.

각각 Evora라는 도시와 Portalegre라는 도시에 위치해 있다. 따라서, 여기서 ‘도시’라 함은 각각 Evora와 Portalegre를 의미할 것이다.
* Evora와 Portalegre 각각 도시의 특성이 존재할까? 어떤 도시가 상대적으로 ‘더 잘 사는’ 도시일까? (데이터 분석 데이터 내에 존재하는 팩트 뿐 아니라, 데이터를 둘러싼 정황을 아는 것 또한 중요한 일이 된다)
* Numbeo라는 사이트에서는 도시 수준의 생계비(Cost of Living) 지표를 제공한다. 평균적으로는 Evora가 ‘더 잘 사는’ 도시인 듯 보인다(물론 학생 개개인의 가정 별 편차가 분명히 존재하기는 하겠지만 말이다).

소득 수준, 잘 사는 정도 등이 실제로 성적과 어떤 상관이 있을지 살펴보는 것이 좋겠다.

두 학교의 차이를 비교 분석을 통해 데이터 내에서 확인해보자.

그룹 A에는 Mousinho da Silveira(MS)를, 그룹 B에는 Gabriel Pereira(GP)를 분석 대상으로 지정하고, 비교 버튼을 누르면 ‘분포의 차이’를 확인할 수 있다.
%로 표시된 것은 해당 변수에 대해서 두 집단이 얼마나 차이가 나는지를 정량적인 수치로 나타낸 것이다.
두 학교에 대한 비교이기 때문에 당연히 학교는 100% 차이가 날 것이니, 두 번째 변수부터 확인해보자. 가장 차이가 많이 나는 특징은 바로 주거지다.

MS의 경우, 시골(혹은 교외)에 거주하는 학생의 비율이 52% 이상이었던 반면에, GP의 경우 18%만 시골에 거주했다.
한국과 직접적으로 1대1로 비교하기는 어렵고, 데이터로 검증할 수도 없지만, 아무래도 시골에 사는 학생들이 교육 인프라적으로 어려운 부분들이 존재하지 않을까 한다.
그 다음에 있는 것은 점수 분포의 차이다.

이 그래프에서 바로 눈에 띄지는 않지만, 자세히 보면 MS(파란색) 학생들의 점수 분포를 보니 점수가 낮은 경우가 더 많았던 것이 보인다.
그러나 이를 ‘MS 학생들이 공부를 더 못한다’로 쉽사리 결론내릴 수 없다.
두 학교의 점수 체계가 다를 수도 있고, MS에서 조금 더 시험 문제를 어렵게 낼 수도 있다. 따라서, 애초에 분석을 진행할 때 학교를 나누어 보는 것이 이러한 편향을 줄일 수 있는 방법이 될 것으로 보인다.

이번에는 두 학교의 숫자형 변수들의 평균적 차이를 한 번에 확인해 보자.

노란색 바는 GP, 회색 바는 MS의 각 변수 별 평균 수치를 나타낸 것이다.
한 학교가 다른 학교에 비해 평균적 수치가 높은 변수들을 살펴보자면
* 전반적으로 GP가 MS에 비해 평균적으로 유의미하게 더 높은 변수들은 부모의 교육수준과 학생들의 주 평균 공부시간이었다. 또한 결석횟수가 있었다.

결석횟수에 큰 차이가 난다는 것은 의외다.▪반면, MS가 GP에 비해 평균적으로 유의미하게 더 높은 변수는 등하교시간이었다.

💡

전반적으로 GP에 다니는 학생들의 경우 통념적으로 학생의 공부 실력에 영향을 미친다고 하는 ‘부모의 교육 수준’이나 ‘주변 환경’ 등에서 이점을 갖고 있는 것으로 보인다.

3-2) 점수와 부모님의 동거 여부간의 상관관계

위에서 보았던 총점수와 부모동거여부를 조금 더 나누어 보자.

• 만약 별거하고 있어도 가족관계가 원만하다면 성적을 잘 받지 않을까? 동거 여부와 상관없이 11.91로 동일하던 평균을 위에서 살펴 본 가족관계건강도에 따라서 나누어 보자.

부모가 동거중이든 별거중이든, 가족 관계가 건강할수록 총점수가 평균적으로 더 높았다.
* 여기서 ‘가족 관계가 건강하다’는 것이 정확히 어떻게 정의되어 있는지는 모르겠다. 별거중이라면 현재 내가 같이 살고 있는 부모 중 한 사람과의 관계인지, 헤어져 살고 있는 부모와도 잘 지내고 있느냐는 뜻인지는 정확히 알려져 있지 않다.
혹시 별거중이라면, 현재 학생의 보호자가 누구인지에 따라서 차이가 있지는 않을까? 이번에는 동거 여부를 보호자가 누구인지에 따라 나누어보자.

여기서 재미있는 모습이 보인다.

우선 별거중인 대부분의 학생들은 어머니가 보호자 역할을 맡고 있다.
그런데 동일하게 어머니가 보호자여도, 동거 여부에 따라서 평균 총점수에 차이가 있다. 마찬가지로, 동일하게 아버지가 보호자라도 동거 여부에 따른 평균 차이가 발생한 것을 알 수 있다. 다만 별거중인 경우 아버지가 보호자인 경우의 표본 수가 적어서 신뢰할 만한 결과는 아니다.
성급한 결론을 내리자면 “별거중일 때에는 어머니의 부재(아버지가 보호자)가 아이에게 영향을 미치는 것은 아닐까?”라는 이야기를 할 수 있겠지만, 이러한 이야기에는 통계적 검증이 필요하다.

이 질문에 대답하기 위해, 신뢰구간을 통해 ‘눈으로 하는 평균 비교’를 해보자.

보호자가 아버지일 때, 부모님 동거 여부에 다른 총 점수의 분포를 나타낸 것이다. 점 하나는 학생 한 명, 회색 상자는 신뢰구간을 의미한다.
신뢰구간이 겹친다는 것은 통계적으로 유의미하게 차이가 있다고 결론을 내릴 수 없다는 뜻이다. 따라서 위에서 살펴본 가설은 ‘그렇다’라고 결론 짓기가 어렵다.

3-3) 주거지에 따른 성적의 차이

아까 위에서 학생의 교육 인프라에 대한 추정 지표로서 주거지 변수를 고려해 보았다. 이번에는 조금 더 해당 내용을 자세히 살펴보자.

먼저 학교를 고려하지 않고 거주지에 따른 총점수의 평균을 확인해 보면 다음과 같다.

전반적으로 도시에 거주하는 학생들의 성적이 더 나은 것을 알 수 있다.

이번에는 학교와 주거지 별로 총점수를 나누어보자.

막상 학교와 주거지 별로 총점수 평균을 나누어 보니, 도시와 시골의 격차가 그렇게 크지 않아 보인다. 그 이유는 뭘까? 바로 MS의 학생들 중 시골에 사는 학생들의 비율이 훨씬 크기 때문이었다!

따라서 ‘시골에 사는 학생들이 도시에 사는 학생들보다 공부를 더 잘 한다’가 아니라, ‘MS에 시골에서 사는 학생들이 많아서, 두 학교의 총점수 평균 차이 때문에, 시골에 사는 학생들의 총점수 평균이 더 낮아 보이는’ 현상이 발생한 것이다.

💡

이를 고려 시, 적어도 포르투갈 학생들은 ‘시골에 산다고 공부를 더 못한다’는 이야기가 성립되지는 않는 것으로 보인다.

3-4) 개인의 노력 - 평균 공부시간과 총점수

위에서는 환경적 요인을 살펴 보았다면, 이번에는 개인적 요인들에 대해서 더 자세히 살펴 보자. 먼저 위에서 총점수와의 상관계수가 높았던 변수인(+0.25) 주평균공부시간이다.

학교에 상관없이 주평균공부시간이 높을수록 성적이 높았던 것을 알 수 있다.

여기서 숫자는 시간이 아닌 ‘정도’를 나타내는 변수다(어려운 말로 순서형 변수라고도 한다). 원데이터 소스가 포함된 페이지를 들어가보면 다음과 같이 명세가 적혀 있다. 1 - <2 hours, 2 - 2 to 5 hours, 3 - 5 to 10 hours, or 4 - >10 hours

각 주평균공부시간을 사교육 여부로 나누어보자.

재미있는 결과다. 애초에 포르투갈에서 사교육을 받는 학생들이 우리나라와는 다르게 굉장히 소수인 것 같다.

공부시간 변수의 값이 1~3 사이(0~10 시간)인 경우에는 두 학교 모두 사교육 여부에 따른 총점수 평균의 차이가 0.xx 수준이었다.
그런데 공부시간 변수의 값이 4 이상인 경우(즉 10시간 이상)인 경우에는, 비록 표본의 수가 작아 일반화는 어렵지만, 오히려 사교육을 받은 학생들의 평균 성적이 더 낮았다.
과도한 해석은 금물이지만, ‘주평균공부시간’에 사교육 시간이 포함될 수 있다는 점을 고려 시, 공부 시간이 많아질수록 ‘남에게 배운 시간’보다도 ‘내가 직접 공부에 투자한 시간’이 더 중요하게 작용한 것은 아니었을까?

3-5) 개인의 목표 - 고등 교육 희망여부와 성적

이번에는 전반적으로 성적에 영향을 크게 미치는 것으로 보이는 고등교육희망여부 변수에 대해서 더 자세히 알아보자.

위에서 언급했듯이 고등 교육 희망여부는 대학 진학 희망 여부로 보아도 좋을 것이다.

학교 별로 고등교육희망여부를 나누어 보면 어떨까?

학교에 상관 없이, 대학 진학을 희망할수록 큰 격차로 총점수의 평균이 높은 것을 알 수 있다.

고등교육 희망여부는 무엇을 의미할까? 아무래도 학생 개인의 미래를 위한 본인의 의지와 밀접한 연관이 있을 것이다. 그럼 이런 질문을 하나 던져 보자.

“어머니가 교육수준이 낮아서 집안에서 교육적으로 아이들을 잘 가르치지 못해도, 학생이 의지와 목표가 있다면 좋은 성적을 받을 수 있을까?”

먼저 어머니의 교육수준에 따른 총점수 평균의 차이다. 가장 어머니의 교육수준이 낮은 학생들(각 학교에 3명)은 표본 수가 너무 많으니 필터로 제외하고 논외로 두면, 평균적으로 어머니의 교육 수준이 높을수록 자식의 점수 평균도 높은 것으로 보인다.

그럼 각 교육수준을 고등교육 희망여부로 나누어 보자.

아무리 어머니의 교육 수준이 높아도, 학생 본인이 고등교육을 희망하지 않는 경우 평균이 급격히 하락했다.

고등교육희망여부가 학생의 목표의식이라면, 주평균공부시간은 학생 본인이 실제로 학습에 보이는 의지일 것이다. 이번에는 주평균공부시간으로 나누어보자.

전반적으로 어머니의 교육수준이 높으면 학생의 성적이 높기는 하지만, 교육수준_모_bin 각 그룹 내에서는 주평균공부시간이 높았던 학생들이 더 좋은 성적을 받았다.

🤔

전반적인 분석 과정을 통해, 환경적 요인이 어느 정도 개인의 노력과 목표를 통해서 극복될 수 있을 것이라는 가설의 단초를 찾을 수 있었다.

다음 편에서는?

이번 글에서는 포르투갈의 두 학교의 학생들의 성적과 관련된 변수들의 양상을 살펴보았다. 전반적으로, 기존의 통념대로 환경적, 가정적 요인이 학생의 성적에 큰 영향을 미치는 것으로 보인다. 그러나, 그러한 한계는 어느 정도 개인의 노력이나 목표 의식을 통해 극복될 수 있는 것으로 보인다. 다음 편에서는 실제로 이러한 가설이 어느 정도 사실인지를 더 데이터를 깊게 파고 들어 확인해 보도록 하겠다. 그리고 눈으로 찾고 확인하는 패턴 뿐 아니라, 자동 분석 기능들을 통해 직접 찾는 방식으로는 쉽게 찾아지지 않는 패턴들은 어떠한 것이 있는지 확인해 보겠다.

출처

데이터 출처 논문
P. Cortez and A. Silva. Using Data Mining to Predict Secondary School Student Performance. In A. Brito and J. Teixeira Eds., Proceedings of 5th FUture BUsiness TEChnology Conference (FUBUTEC 2008) pp. 5-12, Porto, Portugal, April, 2008, EUROSIS, ISBN 978-9077381-39-7.

데이터 소스

Data Set Information:
This data approach student achievement in secondary education of two Portuguese schools. The data attributes include student grades, demographic, social and school related features) and it was collected by using school reports and questionnaires. Two datasets are provided regarding the performance in two distinct subjects: Mathematics (mat) and Portuguese language (por). In [Cortez and Silva, 2008], the two datasets were modeled under binary/five-level classification and regression tasks. Important note: the target attribute G3 has a strong correlation with attributes G2 and G1. This occurs because G3 is the final year grade (issued at the 3rd period), while G1 and G2 correspond to the 1st and 2nd period grades. It is more difficult to predict G3 without G2 and G1, but such prediction is much more useful (see paper source for more details).

Relevant Papers:
P. Cortez and A. Silva. Using Data Mining to Predict Secondary School Student Performance. In A. Brito and J. Teixeira Eds., Proceedings of 5th FUture BUsiness TEChnology Conference (FUBUTEC 2008) pp. 5-12, Porto, Portugal, April, 2008, EUROSIS, ISBN 978-9077381-39-7.Available at: [Web Link]