- 엑셀 활용법에 대해 관심이 많은 분들
- 엑셀 데이터를 다룰 일이 많은 분들
- 다양한 툴을 통한 데이터 전처리, 시각화, 분석을 배워 보고 싶은 분들
- 엑셀과 하트카운트의 차이점이 궁금한 분들
데이터 시각화 및 분석을 위해 #tableau, #PowerBI, #HEARTCOUNT 등의 많은 툴이 생겨났지만, MS 엑셀을 활용하는 분들이 아주 많습니다. 가장 익숙한 툴이기도 하고 쉽게 다양한 시각화를 할 수 있어 여전히 활용도가 높기 때문입니다.
그래서 이번에는 약 세 편에 걸쳐서 엑셀을 통해서 데이터를 전처리하고 분석하여 보고에도 활용하는 과정을 작성해 볼 예정입니다. (편수는 작성 과정에서 변경될 수 있어요 :D)
그 첫 번째 주제인 '데이터 정리하고 파악하기'로 이번 포스팅을 이어가 보겠습니다.
데이터를 파악하는 단계는 매우 중요합니다.
데이터의 전반적인 구조를 파악하고 어떤 변수로 구성되어 있으며 몇 개의 행으로 이루어져 있는지에 대해 알고 난 후에야 효과적으로 분석 주제와 방법을 선정할 수 있습니다. 순서가 바뀐다면 분석 주제는 정했는데 해당 분석에 필요한 변수가 없어 다시 분석 주제를 정해야 하는 불상사를 겪게 될 수도 있습니다.
엑셀에서는 집계 함수를 활용하거나 피벗 테이블과 차트를 활용해서 데이터를 파악하고 분석을 시행하는 경우가 많습니다.
그 단계로 넘어가기 위해서는 먼저 데이터를 정리하는 과정을 거쳐야 합니다. 잘 정리된 데이터일 때, 엑셀이 데이터를 잘 읽어 오류없이 정확한 값을 나타낼 수 있습니다.
그럼 먼저 엑셀 데이터를 정리하는 과정을 살펴 봅시다.
엑셀로 데이터 정리
1. 시트 구성 정돈하기
엑셀로 데이터를 받았을 때 바로 사용하기 좋은 형태라면 좋겠지만 그렇지 않을 때가 더 많습니다.
예를 들어 아래 이미지과 같이 각 열 머리글이 한 열당 하나로 딱 정해져 있지 않거나 첫 행에는 열 머리글이 와야 하는데 위 공간이 불필요하게 비어있는 경우가 있습니다.
이때는 병합을 풀어주고 열을 더 명확하게 구분해 주는 열머리글만 남겨두고 불필요한 빈 행은 삭제해 줍니다.
아래 이미지를 통해 더 쉽게 이해해 보세요!
2. 셀 서식 지정하기
이번 포스팅에서 사용하고 있는 데이터셋은 각 열이 숫자는 숫자로, 날짜는 날짜로 잘 지정이 되어 있는 상태입니다.
엑셀을 사용하시는 분들이라면 셀 좌측 상단에 있는 초록색 삼각형을 보신 적이 있으실텐데요. 그 경우에는 숫자인데 텍스트로 지정되어 있을 수 있기 때문에 형식을 확인해 보는 것이 좋습니다. 아래 이미지와 같이 상단에 있는 사각형에서 확인 가능합니다.
혹시 서식을 바꿔야 하는 상황이 된다면, 세 가지 방법을 활용할 수 있습니다.
① 원하는 열 선택 - 위 gif의 빨간 사각형 안 메뉴 클릭해 원하는 형식 선택
② 원하는 열 선택 - 마우스 우클릭 - '셀 서식' 메뉴에서 원하는 형식 선택
③ 원하는 열 선택 - 상단 데이터 메뉴 - 텍스트 나누기 기능 활용
3. 필터 걸어 정리하기
이제 필터를 걸어서 좀 더 보기 좋게 테이블을 구성해 볼게요.
필터는 상단 데이터 메뉴에 있습니다. 필터를 클릭하면 모든 열머리글 옆에 아래로 향하는 삼각형이 생겨 납니다.
이 삼각형을 클릭하면 정렬 기준으로 지정할지 말지 선택할 수 있습니다. 필터로 표시하고 싶은 기준을 정할 수도 있고 해당 열을 구성하고 있는 목록도 한 눈에 확인 가능합니다.
지금까지 정확한 활용을 위해 엑셀 데이터를 정리하는 과정을 알아 봤습니다.
이제 데이터를 파악해 볼까요?
엑셀로 데이터 파악하기
1. 클릭과 드래그로 개수, 합계, 평균 파악해 보기
쉬운 방법이지만 알아볼 수 있는 내용이 한정적입니다.
먼저 행의 수를 파악해 데이터의 사이즈를 파악합니다. 가장 기준이 될 것 같은 (비어 있지 않을 것 같은) 열의 아무 셀이나 선택해 control + 방향키 ⬇️ 를 누릅니다. 해당 열의 마지막 행(비어 있지 않은 셀)으로 이동합니다. 이 단축키로 비어 있는 셀을 찾을 수도 있으니 기억해 두시길 추천드려요.
열 전체를 선택하면 하단에 열 데이터 전체의 평균과 개수, 합계가 나타납니다. 텍스트 열인 경우에는 개수만 확인할 수 있습니다.
2. 피벗테이블 이용하기
엑셀을 통해 데이터를 활용할 때, 빼 놓을 수 없는 기능 '피벗테이블'입니다.
아래 이미지에서 보이듯 상단의 '삽입' 메뉴 왼쪽에 있는 피벗테이블을 클릭해 생성할 수 있습니다. 피벗테이블 생성할 때 행, 열과 값(계산)을 선택해야 하는데 이게 어려운 경우라면 엑셀 자체에서 추천하는 권장 피벗테이블 메뉴를 활용해 봐도 좋겠습니다.
아래 이미지는 권장 피벗테이블을 선택한 결과입니다.
일반 피벗 테이블 메뉴를 클릭하면, 아래와 같은 창이 뜹니다. 기본적으로 표/범위는 값이 입력된 전체가 다 선택되며, 원하는대로 수정도 가능합니다. 저는 알아보기 편하게 새 워크시트에 피벗 테이블이 표시되도록 위치를 선택했습니다.
오른쪽에 생기는 피벗 테이블 필드를 활용해서 열과 행, 값을 지정할 수 있습니다.
필드 이름 상자에 있는 변수명을 원하는 영역의 상자로 드래그하는 방식을 활용합니다. 궁금한 내용으로 바꿔 가면서 확인해 볼 수 있겠네요.
아래 상자로 드래그 된 각 변수명 옆에는 i가 생깁니다. i를 클릭해 사용할 함수와 데이터 표시 형식 역시 선택 가능합니다.
이번 주제는 전반적인 데이터를 훑어보는 과정으로, 이 이상의 분석을 위한 피벗 테이블의 사용법은 다음에 다루어 볼게요.
지금까지 엑셀로 데이터를 정리하고 전반적으로 파악하는 방법을 살펴 보았습니다.
HEARTCOUNT로 더 간편하게 데이터 정리하고 파악하기
엑셀로 데이터를 파악하는 것도 쉽고 간편하지만 지금부터 더 쉽고 간편하며 빠른 데이터 파악 방법도 함께 제시하려고 합니다!
데이터에 대한 시각적 분석을 무료로 할 수 있는 HEARTCOUNT를 활용한 방법입니다.
우선 위 내용의 데이터 정리하기에서 1단계까지 마무리한 엑셀 파일을 준비해 줍니다.
해당 파일을 드래그 앤 드랍하면 데이터셋을 테이블 형태로 볼 수 있고, 변수별로 카드 형태로도 정리 됩니다.
*요약 정보를 바탕으로 아래의 카드를 살펴 볼까요?
본 데이터셋에서는 비어있는 열이 하나 있고, 숫자형과 범주형 중에서 선택해야 할 열이 두 개 있다고 하네요.
*요약 정보에서는 데이터셋에서 사용자가 추가로 지정해야 할 변수를 제시해 주고, 의미없는 변수(비어있거나 내용이 동일해 분석에 필요가 없는 열)를 자동으로 파악하여 삭제해 줍니다.
먼저 카드를 볼게요.
각 변수를 이루고 있는 값을 한 눈에 볼 수 있으며 데이터의 대략적인 분포도 시각적으로 파악할 수 있습니다.
또한 데이터의 형식에 따라서 자동으로 시계열 데이터와 숫자형 데이터, 범주형 데이터로 구분됩니다. 그 구분은 변수 왼쪽에 작은 아이콘으로 각각 달력, #, abc로 표시됩니다.
이때 특이점은 숫자형 변수들도 HEARTCOUNT에서 구간을 지정한 파생변수를 만들어, 범주화되어 표시됩니다. 이 기능은 이후 더 다채로운 분석을 가능하게 합니다.
변수명 옆에 요약 정보와 같은 i가 표시된 두 개의 변수(수량, 할인율)가 보입니다. 이 두 변수의 i는 숫자형과 범주형 중 무엇으로 지정할지에 대해서 선택하라는 의미였습니다. 두 경우 모두 등급과 같이 구분을 위한 숫자가 아니기 때문에 숫자형 변수로 두도록 하겠습니다.
추가적으로 상단의 ▼을 선택해서 요약값을 확인할 수 있습니다.
이미 사용하기 쉬운 데이터 활용 방법과 툴이 정해져 있는 사람도 있을 것이고, 아직은 적절한 방법과 툴을 찾지 못한 사람도 있을 겁니다.
오늘은 국내의 가장 많은 기업에서 사용하고 있을, '#엑셀 #Excel'의 데이터 활용 첫 단계에 대해 다루었습니다.
동시에 같은 업무를 또 다른 툴(하트카운트)로 하는 방법도 함께 제시했습니다.
각각의 장단점이 있기에 자신에게 맞는 방법을 선택하시면 되겠습니다 :)
분석을 시작하기 이전 중요한 단계인 '데이터 파악하기'에 도움이 되었기를 바라며 본 포스팅을 마무리 하겠습니다.
최재완 강사님이 기초 사용법, 엑셀을 통한 데이터 전처리, ChatGPT 활용법까지 차근 차근 더 자세히 알려 드리는 인프런 강의를 수강해 보세요.
> 인프런에서 더 자세히 보기
> 하트카운트 구독하고 평생 무료로 듣기
지금 구글 계정으로 로그인하여 사용해보세요.