データを読んで、書いて、行動する
データを深く読み解く人は、人間と世界についてより正確で、広範囲にわたり、深い理解を持つようになります。従来の方法とは異なる視点で世界を捉えることで、新鮮で洞察に満ちた意見を提供し、表現する能力が高まります。このような洞察は、より優れた思考を促し、それが私たちの行動を動機づけます。
エッシャーの「drawing hands」の絵画に見られるように、データの読解と解釈、レポートの作成は、相互に影響し合う循環的なプロセスです。データを正確に読み解けば、それをもとに有効なレポートを作成できますし、優れたレポートを書く人は、データを正確に読み解く能力も高まります。
さらに、データ分析やデータ報告は、社会的な相互作用の一形態です。データを正確に読む人(消費者)がいなければ、レポートを書く人(生産者)も存在しません。逆に、効果的に書く人がいなければ、読む人もいなくなるでしょう。データ分析は、敵と味方を見極め、恐れと希望を煽ることで望ましい結果を導く、高度な政治的行為でもあります。
今日は、単なる技術的な内容にとどまらず、データから発見されたパターンを他者が活用できる形で巧みに伝える方法について考察します。
データ可視化の先駆者たち (Brinton to Bertin to Tukey to Tufte)
データレポートは、視覚化されたチャートとテキストを組み合わせることで、情報をより直感的に理解しやすくしています。テキスト主体のレポートと異なり、その最大の特徴は視覚的要素の豊富さにあります。データビジュアライゼーションの歴史を振り返る際、先駆者たちの功績は欠かせません。
データの視覚化は、複雑な情報を視覚的な形で簡略化する技術です。人類が工業化により生活が複雑化する中で、データの視覚化が重要性を増したのは偶然ではありません。特に注目すべきは、1914年に発行されたウィラード・C・ブリントンの著書「Graphic Methods for Presenting Facts」です。これはデータ視覚化に関する初の経営書として知られ、例えば、列車のマイル当たり収益を時系列で示したチャートなどが紹介されています。この当時はまだ「ラインチャート」という用語が存在せず、「curve plotting」という表現が用いられていました。
1967年、地図製作者であり、ブリントンの業績を引き継いだジャック・ベルタンは、データの視覚的表現を革新しました。彼は、データを視覚化する際に用いる7つの基本的な変数を明確に定義しました。これら「7つの視覚的変数」には、位置、大きさ、形、色、明るさ、方向、テクスチャが含まれ、データの表現方法に新たな基準をもたらしました。
ジャック・ベルタンが提唱したデータ可視化の原則は、2023年現在でもその価値を保っています。
- "Principle of Expressiveness": Say everything you want to say - no more, no less - and don't mislead (データで主張したい本質だけをグラフに盛り込む)
- "Principle of Effectiveness": Use the best method for showing your data. (データで主張したいことを的確に表現できる形式を選択する)
ベルタンの業績を引き継いだジョン・テューキーは、「探索的データ分析(Exploratory Data Analysis)」の概念を1977年に体系化しました。彼の業績は広く知られているため、詳細な説明は割愛しますが、EDAに興味のある方は、以下のリンクに掲載されている資料を参照してみてください。テューキーの専門的な内容をわかりやすく説明し、講義形式でまとめた資料です。
エドワード・タフテの影響力はデータ視覚化分野において非常に大きいものがあります。彼が1983年に出版した「The Visual Display of Quantitative Information」は、この分野のバイブルとも言える作品です。この本から、特に印象的なメッセージをいくつか紹介します。
- 「最も重要なのは、データを際立たせること」(p.92)。つまり、不要な要素は排除すべきということです。
- データインク比(p.93)は「情報を損なわずに削除できるグラフィック要素の比率」であり、シンプルさを重視することを示しています。
- 「グラフィカルな卓越性とは、複雑なアイデアを明確に、正確に、効率的に伝えること」(p.51)とは、情報の提示方法における効果的なコミュニケーションを強調しています。
- さらに、タフテは「データが少ない場合はグラフを使う必要がない」と主張し、円グラフに対する否定的な見解も有名です。彼は円グラフの使用を推奨せず、その効果に疑問を投げかけています。
古典を読む過程で、過去には正当とされた考え方が現代の視点から見て誤りである例に遭遇することは珍しくありません。しかし、それらの知識は、現在行っている仕事の背景を理解し、将来への道筋を想像するための重要な鍵となります。ここで言及されている古典的な文献は、過去と現在、そして未来をつなぐための貴重な参考資料です。
データレポートでチャートで嘘をつかない
ジョン・テューキーは彼の著書「探索的データ分析(1977)」の中で、視覚化されたデータが新たな発見に繋がる価値を強調しています。「絵の最大の価値は、予期しない発見に気づくことにある」と彼は述べています。しかし、このような視覚化チャートは、一方で存在しないパターンや意味のない現象に誤って意味を与えるリスクも持ち合わせています。
最近の傾向としては、チャートの基本的な文法に忠実な可視化ツールやライブラリの利用が増えており、変数の種類や質問に応じた適切なチャートの選択を容易にしています。これにより、形式的なミスを減らすことが可能になっています。
以下では、グラフの形式からくる解釈の問題ではなく、データが示す現実をストレートに提示することで生じる問題について、「国別アルコール消費量と平均寿命の関係」という分析テーマで見ていきます。
- 国別の平均平均寿命(Y)とAlcohol平均消費量(X)の相関関係を見ると、0.44非常に高いです。 その関係の定量的な大きさ(0.44)を視覚化した下のチャートは明らかな事実です。 したがって、国別の平均アルコール消費量と平均寿命の間には非常に高い正の相関関係があると言っても間違いではありません。 ただし、相関関係があるということは、2つの変数だけを見て線形関係が存在するということであって、2つの間に因果性が存在するということではありません。
- 第3の変数(例えば、所得水準)が平均余命とアルコール消費量の2つの変数に同時に影響を与えた可能性があり、このような第3の交絡変数(confounding)の影響を排除または軽減するために、データセットを所得水準(GDP)でグループ化し、個々のグループごとにチャートを作成します。個々のグループで相関関係が減少し、特に高所得国集団(上位20%と次上位20%集団)で顕著に相関関係が減少しました。
平均余命とアルコール摂取量の両方に影響を与えたであろう変数(例えば、宗教など)をもう少しコントロールしていけば、両者の相関関係はおそらくもっと大きく減少するでしょう。
現代の可視化の文法に従い、かつデータの品質に問題がなければ、与えられたデータを可視化し、それを定量的に記述することは、善悪を論じることはできません。単に現象を機械的に記述するデータ分析ではなく、現実をより精巧に理解し、行動に移すための分析(レポート作成)を行うためには、事実関係の視覚的表現ではなく、知識生産に役立つ事実の視覚的表現を目指すことが重要です。
Escaping Flat Land
"Escaping Flat Land"は、Edward Tufteの書籍「Envisioning Information」の最初の章のタイトルです。私たちは三次元の時空に住んでおり、情報を習得する際には二次元の平面を使用するように進化しました。したがって、二次元の平面上で複数の次元を効果的に表現することは、データの視覚化において非常に重要な課題です。
ヒキガエルの殻を床に広げた下の図と、私たちが現実のデータを抽象化して視覚化する方法は、大きく変わりません。
複数の次元の変数を平面上で効果的に視覚化する方法が必要です。
視覚的な認知努力を最小限に抑えるための視覚化手法
今回は、「事前注意過程(Pre-attentive Processing)」という概念について説明します。 データビジュアライゼーションにおける前注意の処理とは、視覚認知の初期段階で、人がわざわざ認知的な努力をしなくても、自動的かつ無意識的に情報を処理するプロセスを指します。目立つサイズや色などを先に認識する特性をうまく活用すれば、重要な情報を効果的に強調することができます。
下の絵を一度見てみましょう。何が最初に目に入りますか?
肩に置かれた6本目の指ではなく、尖った黒い歯が特別に目についたのは、私たちが視覚的な情報を処理する際に、指の数を数えるように進化していないからです。最小限の認知的努力で核心情報を視覚的に捉えようとする私たちの性質を考慮すると、チャートには強調したい一つのメッセージに関連する視覚的要素だけを強調するのが良いです。
同じメッセージ(人手が不足しているので人がもっと必要)の証拠としての2つのチャートを並べて、どちらがより良く表現されたか比較してみましょう。左側と右側、両方が同じデータを表現していますが、右側の場合、5月を起点として処理しなければならない未処理のチケット数が増加しており、これは5月に2人が退職したことに起因する核心メッセージがよく示されています。右側のチャートが優れているという結論に至ります。
私たちの見え方を科学する
良い音楽を作曲したいなら、音楽理論を学んだほうがいいです。視覚的に効果的なチャートを作るためのいくつかの科学的な原則を紹介します。Good Chartという本の第2章にある内容をまとめたものであることを明らかにします。
- We don't go in order. 私たちは本を読むように、決まった順序でチャートを見ることはありません。 ユーザーはまず視覚的な要素を認識し、その視覚的要素が何を意味するのか手がかりを探し始めます。チャートの視覚要素の意味を理解するのに役立つ手がかりを適切に配置しましょう。
- We see first what stands out. ユーザーは色や大きさなどで目立つ視覚要素を先に認識します(前注意の処理)。目立つ視覚的要素を核となるメッセージの伝達に役立つ方法で使用しましょう。
- We see only a few things at once. 私たちは同時にほんの数個のものしか見ることができません。全体的なパターンではなく、個々の要素(例えば、個々のカテゴリー)について話すときは、個々の要素の数を制限してください。
- We seek meaning and make connections. 私たちは本能的にパターンを検出しようとし、意味を探し、つながりを作ろうとします。私たちの脳は、パターンが存在しない場合でも、「点と点をつなぎ」、意味を付けようとします。
- We rely on conventions and metaphors. 私たちは、より早く結論に到達するために認知的な近道を使います。赤に否定的な意味を、緑に肯定的な意味を与えるように、慣習的な解釈が働くこともあります。
データストーリーテリングとデータレポートの違い
データストーリーテリングやデータレポートは、特定の質問やテーマに関連する有用な情報と洞察をデータから引き出し、チャートやテキスト形式でレポートにまとめるプロセスです。このプロセスには、さまざまな仮説を検証し、発見した情報を解釈し、文脈を提供して知識を生成する過程が含まれます。
ただし、データストーリーテリングが不特定多数の人に自身の主張や意見を説得することを目的とする場合、データ報告は受け手がより良い洞察や意見を形成できるように、さまざまな事実を提供する役割を果たすべきだと考えます。自身の主張を強調するのではなく、新たな視点を提示することで、受け手がより優れた洞察を得る手助けをすることが報告の目的であるべきです。
データレポートのテキストにおいて、定量的な事実と解釈(筆者の見解)の2つの要素が存在しますが、重要なのは事実です。正確で詳細な事実が提供されれば、個人の解釈や見解の余地は狭まります。私たちは、レポートに正確かつ詳細な事実を優先的に取り入れ、それに焦点を当てるべきだと考えています。
見解はいつか陳腐化するが、事実は永遠に陳腐化しない。by アメリカの作家アイザック・シンガーの兄
データレポート: People Problem vs. Technical Problem
データを活用した報告は根本的にtechnical problemではなくpeople problemだと言われています。この主張は、digital transformationの成功のためには、digital technologyと並行して、その技術を使う人の能力と姿勢、そして組織文化の変化を強調する話と軌を一にしています。
断言はできませんが、データレポートは近い将来、100%自動化できないと断言できます。機械によって完全に自動化できない問題を、技術か人の問題かという二分法で捉えるのではなく、スペクトルで捉える視点が必要です。データテクノロジーが到達できる分析(パターン発見)の自動化の境地に近づくための努力、最終的に人の手に委ねられるしかない事実の解釈とレポート作成に関わる最適な経験の提供だけが唯一の解決策でしょう。
担当者ががデータを活用してレポートを作成することには大きく2つの障害/障壁があり、それぞれで技術が解決する問題と人が解決する問題は以下のように整理できます。技術と製品が果たす役割が大きくなればなるほど、人が担うべき役割は減っていくでしょう。
データレポートの自動化 (feat. HEARTCOUNT Dialogue)
HEARTCOUNT Dialogueは、特に分析的な推論が必要な質問に対する答えを見つけるのを支援するための機能です。
報告者と被報告者の関係において、報告される人が良い意見を形成することがより重要であると指摘しました。また、データツールと実務者(報告者)の関係においても、データツールが確定的な意見を提示するのではなく、実務者が正確な事実と新しい視点を提供し、良い意見を形成できるよう支援することが重要です。
HEARTCOUNT Dialogueは、ソクラテスの対話法のように、実務者が忙しかったり、分析的な推論に慣れていないためにデータに対する適切な質問を行えない場合に役立ちます。これを通じて、ユーザーのレポート作成と知識生成をサポートします。
今すぐGoogleアカウントでログインして使ってみてください。