딥시크(DeepSeek)가 주목 받는 이유 3가지: 작동 원리부터 시장 영향까지

딥시크(DeepSeek)가 주목 받는 이유 3가지: 작동 원리부터 시장 영향까지

딥시크(DeepSeek)가 주목받는 세 가지 이유와 작동 방식에 대해 설명합니다. 나아가, 오픈소스로서의 확장성과 데이터 분석 시장에 미칠 영향까지 알아보세요.

목차

딥시크-R1(DeepSeek-R1)이 무엇인가요?

DeepSeek-R1 중국의 인공지능 스타트업인 ‘DeepSeek’에서 오픈 소스로 공개한 생성형 AI 모델입니다. 특히, R1은 OpenAI의 최신 모델인 o1과 같은 추론형 언어모델입니다.

DeepSeek는 R1 모델 출시 이전에도 V3, VL2 등 다양한 모델들을 오픈 소스로 공개한 바 있습니다.

MIT 라이선스가 적용되어 상업적 사용을 포함하여 자유로운 사용이 가능합니다.

deepseek-ai/DeepSeek-R1 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.


딥시크-R1 (DeepSeek-R1)이 왜 이렇게 화제가 된 건가요?

가장 중요한 것은 1. 아주 값싸게 훈련된 모델(이라고 주장 중)2. 오픈AI의 최신 추론 모델인 o1 수준의 성능을 보여주었고 3. 오픈 소스로 공개되었다는 사실입니다.

아래는 논문에 나와 있는 성능 테스트 결과입니다.

딥시크는 R1이 성능 테스트에서 오픈AI의 ‘o1’을 일부 능가했다고 밝혔다. 수학경시대회 테스트에선 정확도 79.8%를 기록해 o1(79.2%)을 앞섰다고 소개했다. [출처:중앙일보]

이러한 수준의 모델 학습에 사용된 개발비는 557만6000달러(약 80억원)에 불과하였으며, 오픈AI GPT4 개발비의 18분의 1 이하 수준이라고 합니다.

게다가 모델 학습에 사용한 GPU는 기존 모델 학습에 사용되는 NVIDIA의 H100이 아닌, 더 낮은 사양의 GPU인 H800과 화웨이 등의 중국산 칩 2천장만으로 학습되었다고 합니다.

이로 인해서 빅테크 관련 주식이 굉장히 큰 폭으로 하락했고 여전히 약세를 보이고 있습니다.

특히 엔비디아의 주식이 하락하는 이유는 ‘더 이상 비싼 칩을 쓰지 않아도 오픈AI 수준을 달성할 수 있네?’라는 인식이 발생했기 때문입니다.

다만, 최근 SemiAnalysis라는 곳에서 발표한 자료에 의하면, 해당 비용은 단순히 사전학습 비용만을 의미하는 것이며, 연구개발(R&D), 인프라 구축, 운영비용 등의 핵심 요소를 배제한 수치라고 의심을 받고 있는 상황입니다.

(참고: https://zdnet.co.kr/view/?no=20250203150355)

💡
생성형 AI, 특히 언어모델 및 추론모델 시장에서 OpenAI와 메타의 입지는 굉장히 굳건한 상황이었는데, DeepSeek-R1의 등장으로 다음과 같은 변화 및 시사점이 있을 것으로 보입니다.

1. 기업에서 (상대적)저비용으로 OpenAI 수준의 파운데이션 모델을 만들 수 있게 되었다는 점
2. DeepSeek에서 모델을 전부 오픈소스로 공개함에 따라 기존 상업모델들의 비싼 유료모델이나 API 사용료 비즈니스 모델에 타격이 가지 않을 수 없는 점
3. 보안 이슈로 사내에서 언어모델을 사용하지 못하던 기업들이 OpenAI 수준의 오픈소스로 공개된 해당 모델을 사내망에서 사용할 수 있게된 점


딥시크-R1 (DeepSeek-R1)은 어떻게 작동되고 어떻게 훈련되었나요?

강화 학습(Reinforcement Learning)으로 훈련된 딥시크(DeepSeek)

DeepSeek‑R1은 앞서 설명드렸듯이 단순히 학습 데이터의 패턴을 모방하는 기존의 언어 모델들과 달리, 요즘 핫한 추론형 모델로서, ‘chain‑of‑thought’이라고 하는 '여러 단계에 걸친 추론 과정'을 스스로 생성하고 정제하는 능력을 갖추도록 설계되었습니다.

가장 중요한 핵심은 기존 모델들이 주로 지도학습(supervised fine‑tuning, SFT)을 통해 ‘정해진 답지’에 맞춰 학습하는 방식이 주된 방법이 되는 반면에, DeepSeek‑R1은 대규모 강화학습(Reinforcement Learning) 방식을 활용한다는 점입니다. (사실, 이 부분은 약간의 어폐가 있을 수 있습니다. 아래에서 더 자세히 설명하겠습니다!)

a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a preliminary step, demonstrated remarkable performance on reasoning

supervised fine-tuning(지도학습)은 기존의 모든 모델들이 사전 학습되었던 방식인데요. 쉽게 말하자면 미리 정해진 답지(초기 데이터)를 주고 해당 정답지를 잘 맞추도록 학습하는 방식이었습니다. 그리고 나서, 모델이 내놓은 정답들에 대해 사람이 피드백을 줌으로써 모델의 성능을 높였습니다.

그런데 R1의 경우에는 파운데이션 모델에 대해서 강화학습 방식을 통해 지도학습 수준의 성능을 달성했습니다!

강화 학습이 무엇인가요?

알파고(바둑) 학습할 때 사용한 방식의 머신러닝 학습 방법론입니다. 강화학습은 따로 정답지가 없는 대신, 대략 다음과 같은 과정을 거쳐 학습하는 방식입니다.

  • 적절한 대답을 했을 때 모델에게 ‘보상’을 줌 (’시험 문제 하나 맞출 때마다 사탕 하나씩 줄게~’)
  • 모델은 최대한 해당 보상을 많이 얻기 위한 방식으로 직접 훈련을 거듭함 (’그럼 20개 맞추면 사탕이 20개네!?’)

논문에 소개된 R1의 구체적인 학습 방식을 알아보면,

  • DeepSeek‑R1‑Zero (초기 추론 모델)
    • 훈련 방식:
      파운데이션 모델(DeepSeek‑V3‑Base)에 대해 아무런 지도학습(SFT) 없이, 오로지 강화학습(GRPO - Group Relative Policy Optimization와 같은 기법)을 적용하여 훈련됩니다.
    • 특징:
      이 방식 덕분에 모델은 자연스럽게 강력한 chain‑of‑thought 추론과 자기 검증(self‑verification) 능력을 개발합니다(라고 주장합니다).
    • 문제점:
      하지만, 미리 정제된 예제나 포맷팅된 데이터로 ‘가이드’되지 않았기 때문에 출력 결과가 반복적이거나 가독성이 떨어지고, 때로는 여러 언어가 섞이는 등의 문제가 발생할 수 있습니다.
  • DeepSeek‑R1 (최종 정제 모델)
    • 추가 단계:
      R1‑Zero의 출력 품질 문제를 해결하기 위해, 중간 단계에서 “콜드 스타트” 데이터(표준화된 chain‑of‑thought 프롬프트가 적용된 데이터)를 사용한 지도학습(SFT)을 진행합니다. 따라서 이 과정에서 지도학습 방식이 사용되기는 합니다! 다만 가장 핵심이 되는 초기 추론 모델(R1-Zero)을 만드는 데에 사용되지는 않습니다. 어쨌든 이 과정을 통해 chain-of-thought의 표준적인 포맷을 준수하는 결과물이 출력될 것을 기대할 수 있습니다.
    • 최종 강화학습:
      이후, 추가적인 강화학습 단계에서 기존의 규칙 기반 보상(정확도, 포맷팅) 외에도, 생성한 언어가 얼마나 일관적인지(영어 및 중국어 위주로 학습되어 다른 언어로 지시하면 영어로 답변하는 경우가 발생) 및 결과의 (helpfulness) 등에 대한 보상까지 고려하여 모델의 성능을 더욱 강화합니다.
    • 결과:
      최종적으로 DeepSeek‑R1은 R1‑Zero의 강력한 추론 능력을 유지하면서도, 더 읽기 쉽고 일관된 출력을 생성하는 정제된, 실무에 바로 사용할 수 있는 모델로 탄생하게 됩니다.
R1 논문에서 밝히는 언어 혼동과 관련된 부분

물론 기존의 대형언어모델들이 강화학습을 사용하지 않은 것은 아닙니다.

기존 대형 언어모델들이 사용하는 RLHF(Reinforcement Learning from Human Feedback)는 주로 지도학습(SFT) 이후, 실제 사용자나 전문가의 피드백을 바탕으로 모델이 출력하는 결과물을 안전하게 만드는 데 중점을 둡니다.

먼저 대량의 정제된 데이터를 이용해 기본적인 언어 능력을 학습한 후, 사람이 제공한 평가 데이터를 통해 모델의 응답이 바람직한 방향으로 조정되도록 강화학습을 적용하는 방식입니다.

반면 DeepSeek‑R1은 단순히 최종 답을 맞추는 것을 넘어서, 문제를 여러 단계로 나누어 스스로 추론 과정을 생성하고 검증하도록 학습됩니다. 초기 R1‑Zero 단계에서는 지도학습 없이 오로지 GRPO와 같은 순수 강화학습 기법을 통해 이 추론 과정을 자율적으로 개발하도록 유도합니다.

Mixture of Experts (MoE) 방식

DeepSeek R1-Zero의 경우 파라미터 수가 무려 671B(6710억개)입니다.

그런데 실제로 모델을 사용할 때에는 37B개의 파라미터만 활성화됩니다. 파라미터는 많지만 실제로 해당 문제를 해결할 때 필요한 부분만 활성화한다는 것입니다. 이러한 방식을 Mixture of Experts 방식이라고 부릅니다!

💡
자세한 모델 구조와 관련된 내용은 이 블로그를 참고하시면 좋습니다! https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1



딥시크-R1 (DeepSeek-R1)은 어떻게 사용할 수 있나요?

모든 모델은 허깅페이스에 오픈소스로 공개되어 있습니다.

특히 상대적으로 가벼운 모델도 바로 다운로드하여 사용할 수 있도록 제공하고 있습니다. 해당 모델을 증류된 모델(distilled)이라고 부르기도 합니다. 큰 모델이 배운 패턴을 작은 모델이 사용할 수 있도록 축소시켜주는 방법입니다.

32B 모델의 경우 o1-mini 수준의 성능을 보여준다고 합니다.

Chat 버젼은 다음의 링크에서 시도해볼 수 있습니다. https://chat.deepseek.com/sign_in

보안 이슈가 있을 수 있다는 점은 참고하시기 바랍니다!


언어모델 개발 커뮤니티/기업들의 반응

오픈소스로 풀리다보니 벌써부터 수많은 기업들과 개발자들이 해당 모델을 가지고 여러가지 시도를 하고 있는데요.

위 영상에서는 Unsloth라는 기업에서 가장 작은 모델을 활용해 Dynamic bit라는 방식을 적용한 모델을 공개했다는 내용을 다루고 있습니다.

671B에 달하는 R1 모델의 사이즈(720GB)를 131GB까지 축소(80% 감소)시켰다는 것인데요. 모델의 특정 레이어는 4 bit, 나머지 레이어들은 1.58 bit로 축소시키는 방식입니다.

추후 오픈소스 진영에서 R1 모델을 활용하여 추가적인 파인튜닝 등을 통해 더 활용성과 효율성이 높은 모델들이 공개될 것으로 기대됩니다.

데이터 분석 시장에는 어떤 영향을 미칠까요?

앞서 살펴본 것처럼, 추론형 모델은 인공지능 및 언어모델 시장의 핵심 기술이자 방향성으로 평가받고 있고, 특히나 적절한 추론을 통하여 올바른 정답을 도출해야 하는 데이터 분석에 있어서는 그 파급력이 클 수 밖에 없는데요.

다만 국내 시장에서는 많은 기업들이 보안 이슈로 인해 상용 모델(OpenAI의 API)의 도입을 꺼리는 실정이고, 국내 기업들의 모델이나 자체 LLM 구축(private LLM) 사업을 진행하지만 이미 높아질 대로 높아진 수준("chatGPT-o1 정도 성능은 나와야지!")을 충족시키지 못하는 상황입니다.

이러한 상황에서 오픈 소스로 풀린 추론 모델이 상용 모델 수준의 성능을 보여준다면 이야기가 달라질 것입니다. 데이터 외부 유출에 대한 걱정이 없는 사내망/서버에서 고성능 추론 모델을 활용할 수 있게 된다면 앞으로 기업 환경에서의 데이터 분석의 지평은 크게 넓어질것이라 기대할 수 있습니다. 또한 오픈 소스 시장에서의 경쟁이 앞으로 더 치열해질 것이라 볼 수도 있겠죠?

게다가 Deepseek-R1 모델이 공개되자마자 OpenAI에서는 더 진화된 추론 모델인 o3 모델을 제한적으로 공개하기도 했습니다. 추론 모델을 활용한 데이터 분석의 미래가 기대되는 시점입니다.

💖
무료로 시작하기
HEARTCOUNT는 개인, 기업 누구나 자신의 사용 용도에 맞게 사용할 수 있는 데이터 시각화/AI 자동 데이터 분석 도구 입니다. 지금 바로 무료로 사용해 보세요.

출처 및 참고자료

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
We introduce our first-generation reasoning models, DeepSeek-R1-Zero and DeepSeek-R1. DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a preliminary step, demonstrates remarkable reasoning capabilities. Through RL, DeepSeek-R1-Zero naturally emerges with numerous powerful and intriguing reasoning behaviors. However, it encounters challenges such as poor readability, and language mixing. To address these issues and further enhance reasoning performance, we introduce DeepSeek-R1, which incorporates multi-stage training and cold-start data before RL. DeepSeek-R1 achieves performance comparable to OpenAI-o1-1217 on reasoning tasks. To support the research community, we open-source DeepSeek-R1-Zero, DeepSeek-R1, and six dense models (1.5B, 7B, 8B, 14B, 32B, 70B) distilled from DeepSeek-R1 based on Qwen and Llama.
美제재 뚫고 딥시크 역공…미·중 ‘AI 대전’ 터졌다 [view | 딥시크 쇼크] | 중앙일보
‘가성비’(가격 대비 성능)를 앞세운 딥시크의 생성AI 모델 ‘R1’의 성능이 미국 오픈AI의 챗GPT에 필적한다는 평가가 나오면서다. 블룸버그·디인포메이션 등에 따르면 메타는 딥시크 분석을 위해 4개의 워룸(작전실)을 가동 중이고, 오픈AI는 자사 AI 모델의 답변이 딥시크 AI를 훈련하는 데에 무단으로 대량 사용됐는지를 의심하며 조사에 착수했다. 미국은 엔비디아 GPU의 중국 수출을 막았지만, 중국은 화웨이 등을 통해 AI 칩 자체 개발에 한창이다.
안될공학 - IT 테크 신기술
공학박사 ‘에러’가 전하는 최신 공학/테크/IT/신기술 문의 : Unrealtech2021@gmail.com
The Illustrated DeepSeek-R1
A recipe for reasoning LLMs
DeepSeek-R1 논문 정리
DeepSeek-R1 - 강화 학습을 통한 대형 언어 모델의 추론 능력 향상 초록 - 우리는 첫 번째 세대의 추론 모델인 DeepSeek-R1-Zero와 DeepSeek-R1을 소개한다. - DeepSeek-R1-Zero는 대규모 강화 학습(RL)을 통해 학습된 모델로
DeepSeek 논문 분석
LLM도 알파고의 길을 가는가 | 시작하며 최근 AI 업계 소식을 접하다 보면 DeepSeek이라는 이름이 심심찮게 등장합니다. 특히 중국의 헤지펀드 회사인 환팡퀀트(幻方量化)에서 인공지능 연구를 목적으로 설립한 팀이자, 그들이 발표한 오픈소스 언어 모델 제품군으로도 주목받고 있는데요. 이번 글에서는 DeepSeek이 왜 중요한지, 그리고 그 핵심 아이디어가 무엇인지를 최대한 쉽게 풀어보려
New Report Debunks DeepSeek’s Supposed Cost Advantage Over ChatGPT
A recent analysis by SemiAnalysis has challenged the widely circulated claim that DeepSeek’s development costs are just a fraction of what OpenAI spent on training ChatGPT. The report reveals that…
″딥시크 개발비 82억은 과장…총 비용은 50배 이상”
세미애널리시스(SemiAnalysis)가 지난달 31일 보도한 내용에 따르면, 딥시크의 V3 모델 학습 비용이 600만 달러(약 78억원)로 알려졌으나, 이는 단순 사전학습 비용일 뿐이다. R&D, 하드웨어 총소유비용(TCO) 등을 포함한 실제 비용은 이보다 훨씬 높을 것으로…