LLMとデータ分析の自動化

Hello 2024

HEARTCOUNTのSidney Yang(CEO)です。LLMが実務家がデータを活用する仕事をどのように、どれだけ変えるのかという考えで新年のご挨拶に代えさせていただきます。この文章を読んでいるあなたが、本年もより輝くことを願っています。

Self-Serve Analytics - 過去、現在、そして未来

ビジネスパーソンがデータを自在に活用する境地を目指す技術とツールを合わせて「Self-Serve Analytics」と呼びます。21世紀初頭から2022年までのSelf-Serve Analyticsがビジネス担当者のデータ力量(Data Literacy)とデータツールの普及を通じてその可能性と限界を露呈し、2023年はLLM(巨大言語モデル)を活用した"Self-Serve Analytics"の新たな方向に対するビジョンが百花繚乱のように咲き乱れた年でした。

ハートカウントもデータに関する質問・回答自動化のための一連の機能の一環として、自然語をSQLに変換するTTS(Text-to-SQL)と対話型分析機能(Dialogue)を世に送り出し、時代の要請に応えています。

2024年にも、LLMを活用したデータ分析業務の自動化の（最終的な）可能性と（当面の）限界、その限界を乗り越えるための仕組みや技術についての作業が活発に行われるでしょう。

このような地殻変動の深層に位置するOpenAIのChatGPT、GoogleのGemini、AnthropicのClaude、MicrosoftのFabric/Copilotなど、資本と技術を先取りした少数の巨大企業は、新しい変化の覇権を握るためのビックピクチャーを描き続けるでしょう。並行して、MistralのようなオープンソースLLM陣営の躍進と、小さくても聡明な技術企業が披露するPrivate LLMが具体的な分野で費用効果的に問題を解決する姿も期待しています。

Self-Serve Analytics - LLMだけでは不十分

23年夏、マイクロソフトは「ファブリック(Fabric)」と名付けられたデータ分析プラットフォームを派手なデモとともに世に送り出し、希望に満ちたデータの未来を約束しました。 "AIによって、隠れていた洞察を発見してください、" 指先一つでAIの力を全身で感じることができます。"。

しかし、実際のところ、人々が最も関心を持っていた自然言語でデータに質問できるようにするデモ映像で、ユーザーの質問に対してLLMが不正確なSQL文を生成したことを単純なハプニングに終わらせることは容易ではありません。

データに対する質疑応答の自動化の文脈で、機械が答えをうまく出すためには、事実や概念（業務用語）の知識（宣言的知識）と分析スキル（手続き的知識）が必要です。

例えば、「昨年ベトナムでコンバージョン(Conversion)が発生したユーザーの特性を教えてください」という質問に答えるためには、まず、文脈上「コンバージョン」がSign-upコンバージョンを意味するのか、それとも有料プランへのコンバージョンを意味するのかを判断することができ、有料コンバージョンであれば、有料コンバージョンかどうかを識別するルール(例えば、データベースの該当テーブルのプランタイプがprofessional、premium、expertである場合)を確定的に知ることができるように事実と概念に関する知識が必要です。そして、有料コンバージョンしなかった集団と対比される特性を統計的に分析する手順についての方法論的な知識が必要です。

特に、現在の質問の文脈で使用された用語や指標の正確な意味と公式は、ChatGPTのような言語モデルがいくら発展しても、組織内部の知識では分かりにくいものです。例えば、上記の質問で使用された「昨年」が標準年(Calendar Year)なのか、それとも会計年度(Fiscal Year)を指すのかは、その組織内部の事情であることに変わりはありません。 (この問題を克服できる方法の一つとして、下のボックスのRAGを参照)

💡

RAG(Retrieval-Augmeted Generation)は、信頼できる内部文書(例えば、KPI/Metrics定義文書)などを活用し、LLMの回答の精度を高める技術で、LLMを再学習させる必要があるファインチューニング方式より費用対効果が高いと注目されています。ただし、データ分析の文脈で質問に使用された用語や概念をデータ(DB)レベルで明確に定義する問題を当該技術がどれだけうまく解決できるかはまだ断定することは困難です。

データの手間を軽減するために

データからの知識生産が難しいのは、世の中に正確なSQL文が不足していて、与えられたチャートに対する統計的、定量的な解釈が難しいからだけではないと思います。データを活用する技術がどんなに発展しても、与えられたデータに含まれる絶対的な情報量が増えることはないからです。

しかし、データへのアクセスと活用への参入障壁を下げ、知識労働者がデータから知識を生産する生産性を高めることができるという点で、LLMとAIを活用したデータ分析の自動化は、明らかに有意義な技術の発展方向だと思います。忙しいから、あるいは難しいから、「知ることができることを知らないコスト」を支払わなければならなかった個人や組織に実質的な価値を提供することになるでしょう。

仕事(Job)は多くのタスク(Tasks)で構成されています。データを意思決定に活用する仕事も多くのサブタスクで構成されており、数年以内にデータ分析業務と関連するすべてのサブタスクをAIが巧みに代行してくれる可能性はないと思われます。ただ、現在の技術で十分に自動化できる分析のサブタスクをしっかりしたツールの助けを借りて処理する実務者の生産性が、そうでない実務者より高いことは自明です。

HEARTCOUNTは2024年にも、あなたのHEARTに響く分析を完全に代行していくことはできないと思います。ただし、あなたのデータや分析に関連する手間を軽減を実現できるスマートで優しい助っ人になれるよう、2024年も精進していきます。

HEARTCOUNT CEO

Sidney Yang