DeepSeekが注目される3つの理由-仕組みから市場への影響まで

DeepSeekが注目される3つの理由-仕組みから市場への影響まで

DeepSeekが注目を集める3つの理由と、その背景にある技術的原理を解説します。 加えて、オープンソースとしての可能性や、データ分析市場へのインパクトについても考察します。

このページでは、

DeepSeek-R1(ディープシーク-R1)とはなんですか?

DeepSeek-R1 は、中国の人工知能スタートアップである『DeepSeek』が オープンソースとして公開 した生成型AIモデルです。特に、R1はOpenAIの最新モデルである o1 と同様の 推論型言語モデル です。

DeepSeek は、R1モデルを発表する以前にも V3VL2 など様々なモデルをオープンソースとして公開してきました。

deepseek-ai/DeepSeek-R1 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.

ディープシーク-R1(DeepSeek-R1)がここまで話題になっている理由は何でしょうか?
最も重要なポイントは以下の3つです。

  1. 非常に低コストで訓練されたモデル(と主張されている)であること
  2. OpenAIの最新の推論型モデル「o1」と同等の性能を示したこと
  3. オープンソースとして公開されたこと

以下は論文に掲載されている性能テストの結果です。

DeepSeekは、R1が性能テストでOpenAIの「o1」を一部上回ったと発表しました。 数学競技大会のテストでは、正確度79.8%を記録し、「o1」(79.2%)を上回ったと紹介されています。 【出典:中央日報(韓国)】訳:HEARTCOUNT Japan

注釈:
MATH-500
:AIの汎用的数学力(理論・証明含む)を幅広く見る
AIME 2024:AIが競技レベルの数学にどれだけ対応できるかを見る
LiveCodeBench:AIが実行可能なコードをどれだけ正確に書けるかを見る

このレベルのモデル学習にかかった開発費はわずか557万6000ドル(約8億円)で、OpenAIのGPT-4開発費の18分の1以下と言われています。
さらに注目すべきは、学習に使用されたGPUがNVIDIAのH100ではなく、性能の劣るH800およびHuawei製などの中国製チップ2000枚だけで学習されたという点です。

この発表によりビッグテック関連株は大きく下落し、依然として弱気相場が続いています。
特にNVIDIAの株価が下落した理由は、「もう高価なチップを使わなくてもOpenAI並みの性能が出せるのか?」という認識が市場に広まったからです。

ただし、最近SemiAnalysisというメディアが発表した資料によれば、この費用はあくまで事前学習コストのみを示しており、研究開発(R&D)、インフラ構築、運用コストなどの重要要素が除外されている可能性があるとの指摘もあります。

参考リンク:https://zdnet.co.kr/view/?no=20250203150355

💡
生成AI、特に言語モデルや推論モデルの市場では、OpenAIとMetaの地位は非常に強固でした。しかし、DeepSeek-R1の登場により、以下のような変化や示唆が生まれています。

1.企業が(比較的)低コストでOpenAI水準のファウンデーションモデルを開発できる可能性が出てきた点
2.DeepSeekがモデルをすべてオープンソースで公開したことで、既存の商用モデルの高額な有料APIビジネスモデルに打撃が避けられない点
3.セキュリティ上の理由で社内で言語モデルを使用できなかった企業も、OpenAI水準のオープンソースモデルを社内ネットワークで活用できるようになった点

DeepSeek-R1はどのように動作・訓練されたのか?

強化学習(Reinforcement Learning)で訓練されたDeepSeek

DeepSeek-R1は、単に学習データのパターンを模倣する従来の言語モデルとは異なり、"chain-of-thought"(思考の連鎖)と呼ばれる複数段階にわたる推論プロセスを自ら生成・洗練できる、最近注目の推論型モデルです。

最大の特徴は、従来のモデルが主に「教師あり学習(Supervised Fine-Tuning, SFT)」に依存していたのに対し、DeepSeek-R1は大規模な強化学習(Reinforcement Learning)を活用している点です。
(※ただし、この表現には少し語弊があるかもしれません。詳細は以下で説明します)

DeepSeek-R1は、教師ありファインチューニングを前提とせず、強化学習のみで推論能力を習得し、非常に高い性能を発揮しています。

Supervised fine-tuning(教師あり学習)は、従来のすべてのモデルが事前学習で用いていた方法です。簡単に言えば、あらかじめ用意された「正解集(初期データ)」をモデルに与え、それを正しく当てられるように訓練する方式でした。その後、人間がモデルの出力に対してフィードバックを与えることで、さらに性能を向上させていきました。

ところが、R1の場合、ファウンデーションモデルに対して強化学習の手法を用いることで、教師あり学習と同等レベルの性能を達成したのです!

強化学習とは?

囲碁AI「AlphaGo」などで使われた機械学習の一種で、以下のような流れで学習が行われます:

  • 正しい答えを出したときに「報酬」を与える(例:「問題1つ正解したらキャンディ1個あげる!」)
  • モデルはこの報酬を最大限得ようとして自己訓練を繰り返す(例:「20問正解したらキャンディ20個じゃん!」)

R1の学習プロセス

  • DeepSeek-R1-Zero(初期推論モデル)
    • 訓練方法
      ファウンデーションモデル(DeepSeek‑V3‑Base)に対し、SFTなしで「Group Relative Policy Optimization(GRPO)」などの手法を用いた強化学習のみで訓練。
    • 特徴
      この手法により、モデルは自然と強力なchain-of-thought推論と自己検証(self-verification)能力を身につける(とされています)。
    • 問題点
      事前に整えられた例や形式化されたデータでガイドされていないため、出力結果が反復的、読みにくい、多言語が混在するなどの問題が発生する可能性があります。
  • DeepSeek-R1(最終モデル)
    • 中間段階
      R1-Zeroの出力品質問題を改善するため、「コールドスタート」データ(標準化されたchain-of-thoughtプロンプト付き)を使ってSFTを一部実施。
      ※この段階で教師あり学習が使われていますが、R1-Zeroの訓練には使用されていません。
    • 最終的な強化学習
      フォーマットや正確性に加えて、出力の一貫性(例:英語や中国語中心の学習によって他言語指示でも英語で出力される)や有用性(helpfulness)も評価指標に含めてさらなる強化学習を実施。
    • 結果
      R1-Zeroの強力な推論能力を維持しつつ、より読みやすく一貫したアウトプットを実現した実用的なモデルが完成。
■ R1論文で述べられている言語混同に関する部分

既存のLLMとの違い

従来の大規模言語モデルが使用するRLHF(Reinforcement Learning from Human Feedback)は、主に教師あり学習(SFT)の後に、実際のユーザーや専門家からのフィードバックを基に、モデルの出力を安全かつ適切な方向へと調整することを目的としています。

まず、大量の精錬されたデータを用いて基本的な言語能力を学習させた後、
人間が提供した評価データを通じて、モデルの応答が望ましい方向へと調整されるように強化学習を適用します。

一方で、DeepSeek-R1は単に最終的な正解を導くことを目的とするのではなく、
問題を複数の段階に分けて、自ら推論プロセスを構築し、それを検証する能力を身につけるように設計されています。

初期段階であるR1-Zeroでは、教師あり学習を一切行わず、GRPOのような純粋な強化学習手法のみを用いて、この推論プロセスを自律的に発展させることを目指しています。

Mixture of Experts (MoE) 構造

R1-Zeroのパラメータ数はなんと6710億(671B)ですが、実際の利用時には37Bパラメータしか活性化されません。
つまり「必要なときに必要な部分だけ使う」という仕組みです。これを「Mixture of Experts(専門家の混成)」方式と呼びます。

💡
モデル構造の詳細は以下のブログも参考になります:
https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1

DeepSeek-R1はどう使えるのか?

すべてのモデルはHuggingFaceにてオープンソースで公開されています。
特に軽量モデルについてはすぐにダウンロードして使えるようになっており、「ディスティルドモデル(distilled model)」とも呼ばれます。これは大きなモデルの知識を小さなモデルに圧縮したものです。

例えば32Bモデルは、OpenAIのo1-mini相当の性能があるとされています。

Chatバージョンはこちらから試すことができます:
https://chat.deepseek.com/sign_in
※セキュリティ上の懸念がある点にはご注意ください。


LLM開発コミュニティ・企業の反応

オープンソース化されたことにより、多くの企業や開発者がさまざまな試みを行っています。

例えば、Unslothという企業は最小構成のモデルに対し、「Dynamic Bit」方式を適用したモデルを公開しました。
R1(671B)のモデルサイズを720GBから131GBへと、約80%削減したというのです。
特定レイヤーは4bit、それ以外は1.58bitで圧縮しているとのこと。

今後もオープンソース界隈では、R1モデルを使った追加ファインチューニングや最適化が進み、より高効率なモデルの登場が期待されています。

データ分析市場に与える影響は?

これまで見てきたように、推論型モデルはAIおよび言語モデル市場における核心技術であり、今後の方向性を示すものとして高く評価されています。
特に、正しい推論を通じて正確な答えを導き出す必要がある「データ分析」の領域では、その影響力は非常に大きいと言えるでしょう。

しかしながら、国内市場では多くの企業がセキュリティ上の懸念から、商用モデル(OpenAIのAPIなど)の導入を敬遠しているのが現状です。
一部の企業では自社モデルの開発やプライベートLLM構築を試みていますが、
「最低でもChatGPT-o1レベルの性能は必要だよね」というように、求められる性能水準がすでに非常に高く、
その期待に応えきれていないという課題もあります。

こうした状況において、オープンソースとして公開された推論型モデルが商用モデルと同等レベルの性能を示すならば、話は大きく変わってきます。
データの外部流出を心配することなく、社内ネットワークや社内サーバー環境で高性能な推論モデルを活用できるようになれば、
今後、企業におけるデータ分析の地平は飛躍的に広がっていくことが期待されます。

さらに、オープンソース市場における競争もこれまで以上に激化していくことが予想されます。

加えて、DeepSeek-R1の公開直後には、OpenAIがさらに進化した推論モデル「o3」を限定公開したことも注目に値します。

推論モデルを活用したデータ分析の未来が、まさに大きく動き出そうとしているタイミングと言えるでしょう。

🤍
HEARTCOUNTを無料で始める

HEARTCOUNTは、個人から企業まで、用途に応じて柔軟に活用できるデータ可視化・AI自動分析ツールです。まずは無料で、その効果を体感してください。

※HEARTCOUNTは、DeepSeek-R1のAPIは使用しておりません。


出典・参考資料の一覧:

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
We introduce our first-generation reasoning models, DeepSeek-R1-Zero and DeepSeek-R1. DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a preliminary step, demonstrates remarkable reasoning capabilities. Through RL, DeepSeek-R1-Zero naturally emerges with numerous powerful and intriguing reasoning behaviors. However, it encounters challenges such as poor readability, and language mixing. To address these issues and further enhance reasoning performance, we introduce DeepSeek-R1, which incorporates multi-stage training and cold-start data before RL. DeepSeek-R1 achieves performance comparable to OpenAI-o1-1217 on reasoning tasks. To support the research community, we open-source DeepSeek-R1-Zero, DeepSeek-R1, and six dense models (1.5B, 7B, 8B, 14B, 32B, 70B) distilled from DeepSeek-R1 based on Qwen and Llama.
美제재 뚫고 딥시크 역공…미·중 ‘AI 대전’ 터졌다 [view | 딥시크 쇼크] | 중앙일보
‘가성비’(가격 대비 성능)를 앞세운 딥시크의 생성AI 모델 ‘R1’의 성능이 미국 오픈AI의 챗GPT에 필적한다는 평가가 나오면서다. 블룸버그·디인포메이션 등에 따르면 메타는 딥시크 분석을 위해 4개의 워룸(작전실)을 가동 중이고, 오픈AI는 자사 AI 모델의 답변이 딥시크 AI를 훈련하는 데에 무단으로 대량 사용됐는지를 의심하며 조사에 착수했다. 미국은 엔비디아 GPU의 중국 수출을 막았지만, 중국은 화웨이 등을 통해 AI 칩 자체 개발에 한창이다.
안될공학 - IT 테크 신기술
공학박사 ‘에러’가 전하는 최신 공학/테크/IT/신기술 문의 : Unrealtech2021@gmail.com
The Illustrated DeepSeek-R1
A recipe for reasoning LLMs
DeepSeek-R1 논문 정리
DeepSeek-R1 - 강화 학습을 통한 대형 언어 모델의 추론 능력 향상 초록 - 우리는 첫 번째 세대의 추론 모델인 DeepSeek-R1-Zero와 DeepSeek-R1을 소개한다. - DeepSeek-R1-Zero는 대규모 강화 학습(RL)을 통해 학습된 모델로
DeepSeek 논문 분석
LLM도 알파고의 길을 가는가 | 시작하며 최근 AI 업계 소식을 접하다 보면 DeepSeek이라는 이름이 심심찮게 등장합니다. 특히 중국의 헤지펀드 회사인 환팡퀀트(幻方量化)에서 인공지능 연구를 목적으로 설립한 팀이자, 그들이 발표한 오픈소스 언어 모델 제품군으로도 주목받고 있는데요. 이번 글에서는 DeepSeek이 왜 중요한지, 그리고 그 핵심 아이디어가 무엇인지를 최대한 쉽게 풀어보려
New Report Debunks DeepSeek’s Supposed Cost Advantage Over ChatGPT
A recent analysis by SemiAnalysis has challenged the widely circulated claim that DeepSeek’s development costs are just a fraction of what OpenAI spent on training ChatGPT. The report reveals that…
″딥시크 개발비 82억은 과장…총 비용은 50배 이상”
세미애널리시스(SemiAnalysis)가 지난달 31일 보도한 내용에 따르면, 딥시크의 V3 모델 학습 비용이 600만 달러(약 78억원)로 알려졌으나, 이는 단순 사전학습 비용일 뿐이다. R&D, 하드웨어 총소유비용(TCO) 등을 포함한 실제 비용은 이보다 훨씬 높을 것으로…