現実の世界では、2つのグループを分ける重要な特徴をデータから見つける必要があることが多いと思います。例えば、人事部門は、ハイパフォーマーとローパフォーマーとを分ける主要な特性を特定したいかもしれないし、オペレーション部門は、うまくいっている店舗とそうでない店舗の違いはどこから来るのかを理解したいかもしれないし、マーケティング部門は、最近のキャンペーンに反応した人のセグメント特性(そうでない人と比較して)を理解したいかもしれない。

タイタニック号の生存者データセットは、データサイエンスのコミュニティではよく知られたデータセットである。このデータセットには、年齢、性別、乗客クラス、運賃、生存の有無など、タイタニック号の乗客に関する情報が含まれている。このレポートでは、タイタニック号の生存者データセットに対してHEARTCOUTによる高度な分析を行い、タイタニック号の乗客のどの属性(変数)が、生存者と死亡者の2つのグループを区別する鍵となるかを明らかにします。
このデータセットを使用するには:
- https://www.heartcount.io/da/new_campaignにログイン
- 新しいキャンペーンを作成
サンプルデータを利用
- すぐに使える "Titanic Dataset "をクリックする。

下の図では、生存者を青、死亡者をオレンジに色分けし、それぞれのグループの年齢分布を可視化します。生存者の方が全体的に年齢が高い(青いグループの年齢分布は右に偏っている)ことは容易にわかるので、年齢変数が2つのグループを区別するのに有用であろうと推測できます。
しかし、性別やチケットの種類など、2つのグループを区別するために使用できる属性(変数)は他にもたくさんあるため、これらの属性の相対的な重要性を視覚的に決定することはできません。

💡 AUC
2つの母集団の分布がある場合、*AUCが大きいほど、変数が2つの母集団をよりよく識別できると言うことができます。下の図に示すように、2つの母集団の分布が重ならない(または交差しない)場合、AUCは1に等しい(AUCが1ということは、変数が2つの母集団を完全に識別できることを意味します)。

💡 AUCは、異なる集団を分類するモデル(ロジスティック・モデル、決定木など)の性能を総合的に評価するためによく利用されます。
HEARTCOUNTの高度な分析
a. 比較分析
タイタニック号の生存者と死亡者を区別する特徴を見つける。
実用的な観点から、2つの集団の違いを理解することは2つの目的があります:
- 個々の変数の相対的重要性を理解する(例えば、高収益店舗の最も顕著な特徴として、従業員の離職率の低さが見られます)。
- 純度の高い変数の組み合わせを見つける(例えば、離職率が15%以下で、デリバリーシェアが30%以下の店舗は、90%の確率で純利益上位20%に入ります)。
以下では、HEARTCOUNTの比較分析機能を使って、2つのグループを分類する際の変数の相対的な重要性を決定する方法を簡単に見ていきます。

- グループAとグループBを、その特性の違いを理解したい2つの集団として設定する。この例では、グループAには死亡(Survived=0)を、グループBには生存(Survived=1)を設定する。
- グループの設定が終わったら、[比較]ボタンをクリックする。
さて、結果を解釈してみよう。
- 生存率100%: 一番上の結果は(ターゲット)変数 "Survived "で、これは人が生きているか死んでいるかを示す。

- 性別、女性:性別は2つのグループを分ける主な変数であり、生存者(Bグループ、赤)の68.13%が女性であるのに対し、死亡者(青、Aグループ)の14.75%は女性でした。
- 42.8%という数字は、生存者と被害者を性別(女性、男性)で分けており、分布が重ならない部分の割合が約42.8%(紫色は重なりを示す)であることを意味します。我々は、2つの分布の差を定量的に計算するために「カルバック・ライブラー情報量」というアルゴリズムを内部的に使用しており、42.8%は、2つの集団を分離する上での変数の相対的な重要性を測る指標となります。
まとめると、この情報は、性別が乗客の生存に主な役割を果たしたことを示唆するものであり、重要な情報です。
b. セグメンテーション
次に、HEARTCOUNTのマイクロセグメンテーション機能は、決定木アルゴリズムを使用して生存者と死亡者を分類するために使用することができます。

ターゲット変数として "Survived "を選択し、生存者(1)と死亡者(0)を分類するモデルを生成するために、[Analyze]ボタンをクリックします。ツリー・モデルで結果を分析してみましょう。(緑:生存者、青:死亡者)。

- 女性の生存率は74.2%です。

- タイタニック号の生存者データセットには、乗客のクラスに関する情報が含まれており、1が最高クラス、3が最低クラスです。
- もしあなたが女性で、かつ1等または2等(pclass < 2.5)で旅行している場合、生存率は94.7%です(これはキャンペーン作成時にpclassを数字で指定した結果です。キャンペーン作成時にpclassをカテゴリとして選択すると、異なる結果が得られるかもしれません)。
- 一方、男性である場合の生存率は、6歳以下で66.6%であることがわかります。
EDAから、性別と階級が乗客の生存率に関与していることが分かりました。この情報は、データ集合のさらなる分析とモデリングに役立ちます。HEARTCOUNTを使用して、データのより多くの洞察を見つけましょう。