これはデータ分析実習の中で作られた分析事例です。
イントロ
Kaggleの探索中に、脳卒中に関する包括的で整理されたデータセットを見つけました。長らく脳卒中への関心を持っていた私は、このデータセットの婚姻状況、喫煙習慣、BMI、血糖値などの要素と脳卒中のリスクとの相関を分析することを決めました。
データセット
*このデータセットでは、脳卒中や心臓疾患の発生、結婚の有無などの項目に対しては、肯定的な回答は「1」とし、否定的な回答は「0」としています。言い換えれば、脳卒中を経験した人は「1」で表され、そうでない場合は「0」となるのです。
変数情報
- gender: "Male"・ "Female" ・ "Other"
- age: 患者の年齢
- hypertension: 高血圧でない場合は0、高血圧の場合は1
- heart disease:心臓病がない場合は0、心臓病がある場合は1
- ever-married: "No" ・ "Yes"
- worktype: "children", "Govtjov", "Neverworked", "Private" or "Self-employed"
- Residencetype: "Rural" ・ "Urban"
- avgglucoselevel: 平均血糖値
- bmi: ボディマス指数
- smoking_status: "formerly smoked", "never smoked", "smokes" , "Unknown"*
- stroke: 脳卒中を発症した場合は1、発症していない場合は0。
*注:smoking_statusの "Unknown "は、この患者の情報が利用できないことを意味する。
Analysis
私の分析では、脳卒中発症者の中で喫煙者の比率が高く、また血糖値も高いという仮説を立てました。
スマートプロットを用いて行った初期分析では、喫煙習慣と脳卒中発症の間の関連性がはっきりとは見出せず、これには少々驚きました。具体的には、脳卒中患者の中で定期的に喫煙している人は70人、喫煙しない人は89人という結果が出ています。
年齢別にデータを分析してみたものの、喫煙との間に顕著な差異を確認するのは困難でした。特に高齢層においては、非喫煙者の方が脳卒中になる確率が高いことが見られました。全体で4900人以上のデータを検討した結果、脳卒中の患者は248人にとどまり、分析に必要なサンプルサイズが不足している可能性があります。一方で、血糖値と脳卒中との間には明確な関連性が見られました。
この分析資料では、血糖値をY軸に設定し、脳卒中と心臓病の発症者を同時に分析しています。特に、脳卒中患者の中で心臓病も併発しているケースは約17%という、残念ながら高い割合を示しています(右側のグラフに表示)。注目すべき点は、脳卒中の患者は心臓病の有無にかかわらず、平均で血糖値が120以上という高い数値を示していることです。また、心臓病患者の平均血糖値は130台となっています。特に、脳卒中と心臓病が両方発症した47人の患者では、平均血糖値が164にも上昇しており、血糖管理が心血管疾患に与える影響の大きさが浮き彫りになっています。
このため、脳卒中発症者の中で高血糖値を持つグループに注目し、セグメンテーション機能を駆使して詳細な分析を行いました。その結果、特にBMI指数が30.4以上の個人や女性の間で高い血糖値との関連性が顕著であることが明らかになりました。
このデータセットにおける脳卒中患者240人以上の中で、約140人が女性であり、男性に比べ女性の割合が若干高いことが確認されました。しかし、前述のように、脳卒中患者の全体数が限られているため、性別に関して過度な結論を出すことには慎重である必要があります。そのため、分析基準を血糖値トップ20%ではなく、一般に高いとされる121以上に設定し(ターゲット1)、再分析を行いました。この基準の変更により、性別に関する特異性は薄れ、代わりにBMIとの関連性がより明確になりました。これにより、体重管理の重要性が改めて強調される結果となりました。
データ分析から、結婚の有無、居住地域、職業群など様々な条件と脳卒中との間に強い関連性を見出すことは困難でした。これは、前にも述べたように、脳卒中患者のデータ数が限られているため、実際の関連性がそれほど強くない可能性があるからです。一方で、BMI指数と血糖指数との間には強い関連性が見られ、これを効果的に視覚化する方法を探求していました。その過程で、スマートサーチのクラスター機能を用いてデータを表現することに成功しました。
この分析では、脳卒中発症患者248人のデータを基に、心臓疾患や高血圧といった他の健康状態との関連を視覚的に表現しました。具体的には、BMIと血糖値を色と大きさで示すことで、これらの健康指標と疾患の関連を明確にしました。最も外側の円は脳卒中のみを発症した患者を表し、心臓疾患や高血圧は含まれていません。中間の円は脳卒中と心臓疾患が同時に発症した患者を、そして一番内側の円は脳卒中、心臓疾患、高血圧のすべてを併発した患者を示しています。このような視覚化により、各病状とこれらの健康指標との関連性を一目で理解することが可能になります。
この分析では、BMIの数値に応じて色の濃度を変え、12時の方向から時計回りにBMIが高くなるにつれて色の濃度を濃くしています。さらに、血糖値に基づいて円の大きさを決めており、この方法により、血糖値とBMIの数値が不良な場合と病気の発症状況を直感的に理解することが可能です。また、フィルタリング機能を用いて年齢層別にデータを見ることで、高齢の患者ほど複数の疾患が発症している傾向が明らかになります。
Insight
余談ですが、このデータセットを利用する前に、個人的な興味を持つ分野について独自の分析を試みたことがあります。その際、公共データポータルの調査データを用い、HEARTCOUNTでの分析を進めようとしたのですが、データのアップロード中にエラーが発生してしまいました。この経験から、データの前処理には専門的な技術や知識が不可欠であることを学びました。時間の制約もあり、整理されたデータを使用することになりましたが、将来的にはより高度な分析に挑戦したいと考えています。この貴重な機会を提供してくれたHEARTCOUNTチームには深く感謝しており、最後の課題に取り組みたいと思います。