データからノイズを追いかけることのはかなさ
データ分析の目的は知識の生産です。AのためにBが発生したので、Aをより多く(あるいはより少なく)してBのようなことがより多く(あるいはより少なく)発生するようにしようという主張ができる因果的パターンを発見できるはずです。
ほとんどの企業がデータで指標 (Metrics) を定義してモニタリングしていますが、自分のビジネスに「お金になる」知識生産の観点から指標をうまく活用できていません。指標の小さな動きに驚いて質問を投げかけ、納得のいかない答えに、自分たちのビジネスはデータで説明するのが難しいミステリアスなブラックボックスだと思うようになります。
うごめくチャート
データで知識を生産することに失敗する最も大きな理由は何でしょうか?私は「チャートがうごめく」ことだと思います。
幼い子供が壁に描いた落書きのようなチャートを見ると、どんな考え、感情が浮かびますか?上下する指標に一喜一憂することなく、集中すべき主要な変化 (Signal) だけを知りたいと思いませんか?
誰もがダッシュボード内のグラフをみて解釈することに大きな疲労感を感じています。上昇した指標と下落した指標が同時に繰り広げるグラフの饗宴に直面すると、私の瞳も私の心もさまようことになります。
私たちの現実が以下のグラフのように一つの確固たるメッセージを伝えてくれればいいのですが、現実のデータはSignalとNoiseとが混ざり合ったまま、休むことなく、ぐずぐずとうごめいています。
“「近代化によってもたらされる情報の供給は、人間を平穏な第二の仲間から神経症的な第一の仲間へと変貌させる。[… ] 第二の仲間は現実の情報に反応し、第一の仲間はノイズに反応する。この2つの仲間の違いは、ノイズとシグナルの違いを示している。ノイズとは無視すべきものであり、シグナルとは耳を傾けるべきものである。” by Nassim Taleb
伝統的な試み: 予測モデルの使用
運の影響で発生したデータの蜃気楼を追いかけることの無謀さを解決しようとする最も伝統的で代表的な方法は、予測モデルを使用することです。Prophetなどの予測モデルを使用して、時系列上の予測範囲から一定レベル以上外れた場合を異常値や外れ値とみなすことです。
異常値検出、はいいいえ
異常値検出アルゴリズムを注目すべき経営指標の変化とその原因を見つけるために活用する場合、(私の経験では) 2つの問題があります。
- ビジネス指標の場合、月や週単位で集計される指標の特性上、a.十分なデータポイントがない(月次集計の指標の場合、過去5年のデータを集めても60件に過ぎない)こと、b.収集されたデータでは未知の外部イベントからの影響のため、安定した予測モデルを作ることは難しい。
- 安定した予測モデルを作ることができる場合であっても、売上指標が予測範囲から外れた(異常値/外れ値)という事実を知らせるだけで、指標変化の主な要因(特定の商品販売が特定の地域で大きく減少したなど)を知らせることはできない。
xMRチャート再考
ビジネス指標からシグナルを見つけるために、最近、xMRチャートが新たに注目されています。xMRチャートは、従来、品質管理やプロセスモニタリングで異常値や異常なパターンを識別するために使用されてきたツールです。簡単に説明すると、指標の連続した観測値の差を計算(差分: differencing)して変動性を視覚化(xMRチャート)した後、変化量(差分値)の分布を考慮して上下限を設定し、その範囲を超えた場合、外れ値と判断する方式です。
ビジネス指標にxMRを適用する際に考慮すべき最大の現実的な問題は、差分値の上下限を設定することです。特に、急速に成長していたり、変動幅が大きい指標の場合、xMRは適切ではないと思います。xMRについてさらに詳しく知りたい方には、この記事をおすすめします。
HEARTCOUNT シグナルをご紹介します
HEARTCOUNT シグナルは、運 (ノイズ) によって引き起こされる指標の変化と経営環境の変化によって引き起こされる指標の変化 (シグナル) を区別するために開発した新しい機能です。指標を知ることができるすべての下位次元(地域別、商品別など)とその組み合わせ(関東×婦人服など)で計算し、全体指標レベルでの変化だけでなく、下位レベル(関東の婦人服販売売上など)で発生した注目すべき指標の変化までお知らせすることができます。
以下の図は、指標 (自動車保険金、Claim Amount) を自動車タイプ (Vehicle Type) で区分して時系列で表現した図です。実務の観点から私たちが関心を持たなければならない変化は、1番目(4ヶ月連続増加した場合)と4番目(3ヶ月連続増加した後に急落)のグラフでしょう。
赤色で表示された1番目と4番目のグラフが (青色で表示された2番目と3番目のグラフに比べて) 注目すべき変化であることを決めるのに、何か大げさな統計学的理論で裏付けられる必要はないと思います。見れば誰でも分かるはずです。
これまで、運によってうごめく変化と注目すべき指標の変化とを区別するのが難しかったのは、実務者が指標の変化に関して具体的な質問(例えば、3ヶ月以上連続して増加した後、今月50%以上減少した場合を教えてください)を行うことができるデータツールがなかったからです。
以下はHEARTCOUNT Signalの実際の画面です。3ヶ月以上連続して増加した後、今月に50%以上指標が減少したケースを簡単に見つけることができます。
Signal is All You Need: 偶発的な変化と重要な変化を区別します
現実 (reality) は無限に近い多様な姿を持っていますが、私たちの感覚の限界のため、現実の全貌を知ることはできません。 無限に近い現実が私たちの前に同時に展開されれば、私たちの認識は拡大するのではなく、圧倒されて萎縮してしまいます。ダッシュボードに広がる数多くのチャートの前で、私たちは恣意的に選択することになり、選択された事実だけを完全な事実/現実と信じてしまうのです。
HEARTCOUNT Signalは
- ノイズ (運、偶然) の影響により無意味に揺れ動く指標と、現実の変化 (シグナル) の影響で動いた指標とを区別することができます。予測モデルや統計的理論を使わず、実務者の言語と視線で簡単に区別することができます。(3ヶ月以上連続して増加した後、今月に50%以上減少したケースを探してください)
- 指標の変化に影響を与えた無数の要因を影響度(絶対的な変化量、変化率など)に基づいて並び替えて検索することができます。
- 注目すべき指標の変化と変化の主な要因をメールレポート形式でまとめて自動送信します。