データの可視化とは?
データの視覚化とは、データの量的な値(例:45.6年、58.3年)や質的な値(例:北米、アフリカ)を視覚的な要素に変換するプロセスです。棒グラフ、散布図、円グラフのような視覚化の技法は、基本的にすべて普遍的な文法に依存しています。この文法は、位置、大きさ、形、色によって記号化された視覚的要素を用いて、データに含まれる値を表現することを必要としています。
定量的なサイズを比較するための視覚化手法
量的な大きさ(金額)を表現して比較することは、データを視覚化する際に最も頻繁に行われる作業の1つです。
商品カテゴリー別の総売上高を比較する、国別の平均寿命を比較する、部署別の平均勤続年数を比較する、などはすべて与えられたカテゴリー(商品、国、部署)の定量的なサイズを表現し、比較することになります。
異なるカテゴリー(例:大陸)の定量的属性(例:平均寿命、総所得)を視覚化するには、棒グラフが使用されます。下の図に示すように、棒グラフは、棒の長さで表される水平方向(Horizontal)または垂直方向(Vertical)に量的属性を一覧表示します。別の方法としては、棒の端に点(Dot)を置く方法があります。
選択したカテゴリー(例:大陸)内のサブカテゴリー/グループ(例:国)を表現する必要がある場合は、グループ化されたバー(Grouped Bar)または積み重ねられたバー(Stacked Bar)のアプローチを使用します。
カテゴリー別定量サイズ(平均)の可視化
EDAの実務でよく使われるハンス・ロスリングのデータセット(下図)を使って、カテゴリー別に定量的なサイズを比較してみよう。
まず、HEARTCOUNTにログインした後、ハンス・ロスリングのデータセットを選択し、スマートプロットメニューに移動して、大陸別の平均寿命を棒グラフで可視化します。
- Y軸に平均余命、X軸に大陸を選択する。X軸をサブグループに分ける必要はないので、サブグループには「X軸」を選択する。
- Y値の集計方法に「平均(デフォルト)」を選択し、右上のチャートタイプに棒グラフを選択し、Y軸が0から始まるようにY値を降順に並べる(「0として設定」をクリック)。
棒グラフ
大陸別の平均余命は棒の大きさ(長さ)で視覚化され、比較しやすいように大陸が降順に並んでいます。
さて、個々の国の平均寿命を大陸別にグループ化して視覚化するには、サブグループを "X軸 "から "国 "に変更します。
おっと!個々の国が多すぎて、それぞれの棒にカーソルを合わせないと、それぞれの国の値を見分けることができません。もちろん、下の可視化が本質的に悪いというのは厳密にいうと正しくありません。
ビジュアライゼーションの目的が「報告」ではなく、データ探索を通じて理解を深め、広げることであるならば、その善し悪しを議論することは本質的ではありません。
しかし、そのビジュアライゼーションが私の主張やレポートの説明をサポートするためのものであるならば、視覚的混乱を引き起こすようなビジュアライゼーションは避けた方がよいですね!
カテゴリー数が多すぎる場合
個々のカテゴリーが多すぎて視覚的に表現できない場合は、HEARTCOUNTのドリルダウンメニューに移動し、同じ質問を別の方法で視覚化してください。
個々の国の平均余命を階層構造(大陸→国)と文脈(大陸内の比較・ランキング)で調べることが目的であれば、たとえ上下にスクロールする必要があったとしても、以下のように情報を要約して視覚化することは、与えられた問いに答えるための正しいアプローチです。
ツリーマップ
左上の可視化方法をツリーマップの形に変更すると、階層構造に含まれる定量的な大きさをより簡単に比較することができます。
🌴 ツリーマップとは?
ツリーマップ(Treemap)は、階層的構造(上位カテゴリー → 下位カテゴリー)を持つカテゴリー型変数の定量的な大きさを主に正方形の面積(Area)の大きさで表現する可視化方式を意味します。主に、階層的な階層を持つカテゴリー間の相対的な定量的大きさを一目で比較するために使用されます。
カテゴリー別数量規模(合計)の可視化
棒グラフ
HEARTCOUNTのスマートプロットメニューを使って、大陸別の総収入(データ収集期間中の総収入)を可視化してみましょう。
- Y軸に「1人当たりの所得」を選択し、Y値を合計として集計し、X軸に「大陸」を選択し、集計したY値を降順に並べます。
- X軸で選択したカテゴリーをグループ化するには、サブグループで「X軸」を選択し、右上のチャート・タイプとして棒グラフを選択します。
大陸別の一人当たり総所得は、下図のように棒の大きさ(長さ)で可視化されます。
積み上げ棒グラフ
では、大陸別の総所得(データ収集期間中の総所得)を国別に可視化してみましょう。
- サブグループを "X-axis "から "Country "に変更し、右上の棒グラフの代わりに "積み上げ棒グラフ "を選択してください。
国別の一人当たり所得の合計が棒グラフで表され、大陸別に積み重ねられているのがわかると思います(もちろん、ここでも、ビジュアライゼーションがインタラクティブな探索を意図したものでない場合、カテゴリーが多すぎると問題が生じる可能性があります)。
ツリーマップ
ドリルダウンメニューを使用して、チャートを表やツリーマップ形式で表現することで、与えられた質問に対する答えをより正確かつ簡単に検証することができます。
これまで、データに含まれる量的な大きさや違いを視覚化する方法を探ってきました。色の濃さを用いて量的な大きさを表現することもできますが、クリーブランド&マギルの視覚知覚に関する論文で説明されているように、人間は色の濃さによる量的な違いをあまり知覚しません。長さや位置を用いて表現することが不可能でない限り、色の濃さを用いるのは避けた方がよいでしょう。
さらに、こんな質問もあるかもしれません:
- "「平均的」と要約されるカテゴリー間の量的な差は有意か?"
- "複数の変数/指標の量的な違いを比較するには?"
これらの疑問は、以下の記事で詳しく述べられています"分布: 個々の記録の可視化を通して不確実性について"と、 "複数の変数を一度に可視化する方法 "で詳しく説明します。