(来源:中原证券研究所)
我们在2024年11月30日外发的《计算机行业年度策略:国产化形势持续向好,重点关注推理、AI应用和液冷需求》中提出了“o1的问世”“让Agent也步入了发展的快车道,AI在应用软件层的发展潜力亟待释放”。DeepSeek - R1 发布后,大模型成本显著下降,开源阵营在性能上实现超越。至此,AI 应用集齐全面落地的三大关键要素,这一阶段具有里程碑式意义。
要素一:逻辑推理能力提升。OpenAI 的o1开启了大模型逻辑推理能力的提升路径,DeepSeek首次公开验证了强化学习对于大模型推理能力提升的有效性。
要素二:推理成本下降。DeepSeek作为大模型领域的“拼多多”,开启了大模型的低成本训练路径。DeepSeek通过MLA和DeepSeek MoE架构减少了模型架构方面的算力消耗,同时在训练架构上展现出了强大的软硬协同优化能力,实现了FP8混合精度训练框架、DualPipe算法、跨节点All-to-All通信内核等一系列创新。在API调用成本仅为o1 1/30的基础上,DeepSeek推理服务理论毛利率水平高达到84.5%。在带宽和显存落后的H800上,较英伟达H200实现了151%的性能超越
要素三:开源阵营的性能超越。DeepSeek的R1和V3模型不光追平了最先进的闭源模型的能力,同时在成本上形成了明显的优势,代表了更先进的模型发展方向,让开源大模型在先进性上首次超越了闭源大模型。DeepSeek的开源条款更加开放,同时将核心代码悉数开源,极大地促进了应用的落地和技术的推广。开源生态的发展,弥补了中国企业上云(特别是公有云)比例偏低的劣势,国内B端大模型应用的也可以通过私有化部署加速展开。
随着AI应用进入爆发期,企业级部署需求呼之欲出,医疗、政务、Manus等应用落地都成为了市场关注的焦点,腾讯、阿里、字节、小米等科技大厂也在加速AI投入,实现向下个时代的布局。虽然大模型推理成本在下降,但是由此带来的应用爆发有望带来更多的应用需求,成为下一阶段拉动算力增长的主要驱动力。考虑到中国有互联网应用的领先优势、在数据端的长期积累和庞大的工程师团队,在底层模型能力实现突破以后,我们在AI应用的发展有望实现全球领先。
风险提示:国际局势的不确定性;下游企业削减开支。
我们在2024年11月30日外发的《计算机行业年度策略:国产化形势持续向好,重点关注推理、AI应用和液冷需求》中提出了“o1的问世”“让Agent也步入了发展的快车道,AI在应用软件层的发展潜力亟待释放”。DeepSeek - R1 发布后,大模型成本显著下降,开源阵营在性能上实现超越。至此,AI 应用集齐全面落地的三大关键要素,这一阶段具有里程碑式意义。
本文将围绕这三大要素展开论述,同时重点关注DeepSeek所作出的贡献。
1. 要素一:逻辑推理能力提升
1.1. o1开启逻辑推理能力提升的新路径
纵观本轮人工智能在大语言模型方向上取得的成就,就是因为发现了Transformer符合Scaling Laws,通过增加模型参数、训练数据和算力,保持系统能力的增长,甚至在规模达到一定程度,模型能力会得到指数级的提升,也就是涌现。
而随着算力规模指数级的增长,训练数据枯竭,合成数据也未能取得理想的效果,在预训练方向的Scaling Laws面临发展瓶颈。2024年11月10日,根据The Information报道,OpenAI的下一代旗舰模型Orion可能不会像前面几代产品那样带来巨大的飞跃。Orion性能虽然超过了OpenAI现有的模型,但是面临了新训练数据匮乏的瓶颈。OpenAI意图通过合成数据进行Orion的训练,但是合成数据可能会导致Orion在某些方面与那些旧模型相似。
此前科学界对于LLM的技术路线能否在提高语言能力的同时,高效提高逻辑能力和推理能力存在较大质疑。 2024年6月19日,美国麻省理工学院在Nature发表了论文《语言主要是一种交流的工具,而不是一种思考的工具》(Language is primarily a tool for communication rather than thought),论文中证明了负责语言的神经和负债思维的神经在人脑中是分离的。可以看到在OpenAI的o1发布以前,大模型的在语言能力构建上取得了突破,已经表现得比较出色,但是在推理和逻辑能力方面的表现仍较人类有极大的差距。
2024年9月,作为AI发展风向标的OpenAI 发布了o1,提升了大模型解决科学、编码、数学和类似领域的复杂问题。因而o1对于LLM实现AGI具有重要的意义,是OpenAI在模型能力提升上更为重要的突破。
1.2. DeepSeek首次公开验证了强化学习对于大模型推理能力提升的有效性
DeepSeek使用DeepSeek-V3-Base作为基础模型,通过强化学习(RL)训练出了DeepSeek-R1-Zero,进而具备了较强的推理能力,其AIME 2024得分从15.6%提升到了71.0%。DeepSeek-R1-Zero首次公开验证了大模型的推理能力可以通过强化学习来完成训练,而不需要监督微调,为后续大模型推理能力的提升找到了可靠的路径。
但是R1-Zero具有可读性差和语言混合等问题需要解决,于是DeepSeek又在R1-Zero训练方法的基础上加入了多阶段的训练,包括在强化学习之前使用数千高质量思维链(CoT)冷启动数据来微调DeepSeek-V3-Base模型,接下来执行与DeepSeek-R1-Zero相同的面向推理的强化学习,再对精心挑选的示例数据进行监督微调(SFT),再进行强化学习,从而让新得到的DeepSeek-R1具有了更好的语言可读性和连贯性,在推理之外的测试中实现了更好的性能。
为了能够将推理能力迁移到不适合MoE架构的场景,DeepSeek还用DeepSeek-R1对Llama和Qwen系列开源大模型进行了蒸馏,并得到了6个小模型,也很好地提高了模型的推理能力。
纯强化学习的训练方式为模型创造出了超越传统人类思维上限的可能性。R1-Zero在强化学习训练过程中,自主掌握了通过增加思考时间来解决复杂推理任务的能力,具有自我评估、自我反思、生成超长思维链(CoT)等复杂思维能力。随着训练迭代步数的提升,DeepSeek-R1-Zero的AIME精度持续提升,同时其思考的时间也在增加,展现出了自我进化的能力。与监督微调通过给模型大量人类标注数据进行学习不同,在强化学习中,模型通过自我学习和获得奖励的方式,完成自主的学习。因而我们看到强化学习具有几大优点:(1)不依赖于先验知识,模型自我学习的过程中或能涌现出超越人类思维上限的推理能力;(2)无需标注数据,监督微调需要的人工标注数据往往需要耗费较长的时间周期和较高的成本,还容易因为标记者喜好产生训练偏差。
2. 要素二:推理成本下降
2.1. DeepSeek开启低成本路线
在2024年5月推出的DeepSeek-V2中,DeepSeek就已经显示出了高性价比优势,被誉为大模型领域的“拼多多”,后续DeepSeek又将这一优势延续到了V3和R1等产品中。
2024年12月发布的DeepSeek-V3在性能上看齐了GPT-4o,同时模型训练成本仅为其1/20。2025年1月发布的DeepSeek-R1,又在性能上看齐了o1,同时API调用成本仅为其1/30。
2.2. DeepSeek算力节省的关键点
DeepSeek-R1的模型架构主要来自于DeepSeek-V3,DeepSeek-V3的模型架构中减少算力消耗的两个关键点包括:
(1)多头潜注意力机制(MLA,对传统多头注意力机制的改进):大概贡献了2-4倍的计算效率提升,该技术首次在DeepSeek-V2中引入。传统的多头注意力的键值缓存(KV Cache)较大,DeepSeek通过将低秩近似方法引入键值缓存压缩中,从而提升了计算效率。
(2)DeepSeek MoE架构(对传统MoE架构的改进):大概贡献了4倍以上的计算效率提升。DeepSeek-V3是一个混合专家语言模型(MoE),由于MoE架构模型的每个输入数据只选择激活其中一部分专家模型,因而可以减少计算量,提高训练和推理的速度。
DeepSeek-V3具有6710亿参数,其中每个Token的计算约激活370亿参数。相比于传统MoE模型,DeepSeek使用专家数量大幅提升,并通过无辅助损失的负载平衡策略提高训练的稳定性,从而实现了更高的训练效率
DeepSeek-V3的训练基于其自研的HAI-LLM框架。在模型架构之外,DeepSeek的训练架构上展现出了软硬协同优化能力,这成为了他们超越国内其他大模型团队的关键,这其中核心优势包括了:
(1)FP8混合精度训练框架:通常在大模型训练中会选用BF16或FP32 / TF32精度进行数据计算和存储,FP8虽然可以提升计算速度和降低存储需求,但是由于计算精度不高,容易损失数据信息。为此,DeepSeek结合自身在GPU硬件架构和训练误差方面强大的整合分析能力,专门设计出了针对FP8的训练框架体系,将大多数计算密集型操作在FP8中进行,而一些关键操作则保持了原有数据格式,兼顾了训练效率和稳定性。DeepSeek也成为了首个成功使用FP8混合精度训练超大规模大模型的公司。
(2)DualPipe算法:实现高效的流水线并行,并通过计算和通信的重叠,隐藏了大模型训练中的大部分通信开销,规避了单个服务器中8个GPU共享一个IB NIC流水线并行期间出现的网络带宽竞争。从下图中可以看到,在代表着8个GPU的流水线并行中,在不同任务的穿插计算中,白色的气泡时间都得到了极大的压缩。
(3)跨节点All-to-All通信内核:使用PTX编程,充分利用了节点间互联(InfiniBand)和NVLink带宽。对显存分配进行了优化,无需使用昂贵的张量并行(TP)就可以完成训练。
2.3. 两大模型训练路径
从目前大模型能力构建路径来看,大致可以分为两类:
(1)通过精细化模型和软硬件结合的训练构架的构建,实现在较低的算力消耗基础上的模型能力建设。DeepSeek在这个方向上展现出超强的能力和开创性,也很好契合我国目前GPU被卡脖子的现状和AI应用推广的实际需要。
在业届关注DeepSeek的同时,阿里也在3月6日开源了QwQ-32B,性能对标DeepSeek-R1的同时,实现了中等模型的能力对标,仅需消费级显卡就可以实现推理需求。
(2)通过大算力投入,带动整体模型能力的提升。这一方法面临Scaling out的质疑,但是从xAI发布的Grok3推理能力赶超DeepSeek-R1来看,堆算力的方式目前暂时有效。在用122天构建出10万GPU数据中心Colossus以后,xAI又用92天将其扩建至20万卡,并在这一硬件基础上完成了对Grok3的训练,累计训练时长达到2亿GPU小时,是Grok2的十倍。
但可以预见的是,无论从经济性上来说,还是从能源消耗等因素来看,简单依靠大力出奇迹的发展路径的瓶颈都显而易见。而DeepSeek所处的精细化处理的发展路径,给后续大模型应用推广和能力进一步提升,都创造了更多发展空间。
2.4. DeepSeek运营成本及相关数据测算
根据DeepSeek在3月1日发布的《DeepSeek-V3 / R1 推理系统概览》中“线上系统的实际统计数据”的相关数据,我们对DeepSeek的实际推理成本做了进一步的测算。
当前DeepSeek用278台H800服务器提供推理服务,对应的GPU数量为2224张。由于DeepSeek在夜间的需求较少,其减少了推理节点,用剩余算力满足自身的研究和训练,平均占用GPU数量为1814张,这个数量是远低于市场预期的。
可以看到大约在每日9点到24点时段,所有节点提供推理服务,低谷阶段仍有约1/4的节点提供推理。
按照理论测算,DeepSeek会有日均47.5万美元的利润,对应的毛利率高达84.5%,但实际利润会少于理论值,对比在理论收入测算中与实际收入的差距主要包括:
(1)DeepSeek目前提供了网页、APP和API推理服务,由于网页和APP提供免费服务,DeepSeek实际只能通过API获得收入。
(2)DeepSeek的收入是以R1价格进行的计算,而V3的价格低于R1。
(3)DeepSeek在夜间提供了折扣,会降低夜间收入价格。
2024年10月媒体The Information的报道,根据其获得的OpenAI公司财务文件显示,预计从2023年到2028年,OpenAI将蒙受440亿美元的损失,其中2024年将损失50亿美元,到2026年年度损失可能高达140亿美元,到2029年OpenAI或才能扭亏为盈。对比来看,DeepSeek凭借强大的成本控制能力,已经可以实现MaaS服务盈利,同时实现如此高的理论毛利率,都是超出市场预期的。
由于DeepSeek的推理成本取决于当前时段其用于提供推理服务的节点数,用户使用习惯会影响服务需求的波动。如在12点左右和18点左右的用餐时段,DeepSeek服务需求会有阶段性下降,从而影响了推理节点的利用率。因而对于规模体量更大的MaaS供应商来说,可以有更多不同类型客户来平抑掉推理服务的波动。比如C端用户通过手机等终端的AI服务接入后,在用餐时段或将产生更多的服务需求。
3. 要素三:开源阵营的性能超越
3.1. 开源大模型阵营首次在先进性上超越了闭源阵营
主流大模型厂商在开源方面路线可以分为三类:
(1)闭源路线为主的厂商:
OpenAI:在从开源走向闭源的过程中,GPT-1开源到了技术细节,GPT-2开源仅为源代码,GPT-3仅有公开的论文,到了GPT-4以后OpenAI甚至连模型参数都不再对外公布。
除此以外,Anthropic、腾讯、华为目前也都可以算作这一阵列。
(2)开源落后模型或者轻量模型的厂商:
xAI:xAI开源了Grok-1,但是Grok-2和Grok-3都还没有进行开源,xAI表示将会在Grok-3达到一般可用性后开源。这意味着xAI的开源节奏将会在发布新模型后才进行上一代模型的开源,整体模型能力也将落后于目前主流闭源模型的水平。
谷歌:作为AI领域的老牌厂商,谷歌在2024年2月和6月分别推出了开源模型Gemma和Gemma 2系列模型,主要是一些轻量型模型,但与此同时谷歌最强的模型为闭源的Gemmi系列。
虽然有开源,但是这类厂商对开源大模型总体贡献有限。
(3)坚定的开源路线厂商,给开源社区带来了较大贡献:
Meta:作为此前开源大模型领域的标杆,Meta开源了Llama 1、Llama 2、Llama 3、Llama3.1系列模型,同时在模型能力上比肩GPT-4o,包含模型最大参数达到了4050亿。
阿里:是国内首个加入大模型开源行业的大型科技企业,阿里也在陆续进行了Qwen、Qwen 1.5、Qwen 2、Qwen 2.5、QwQ等系列大模型的发布,产品尺寸涉及了从5亿到1100亿等多个参数大小尺寸,且模型效果始终在开源届处于较为领先的地位,在R1之前开源大模型能力上比肩GPT-4o和o1-preview,最新模型能力对标o1,且仅有32B参数。
DeepSeek:从2023年11月的首个大语言模型就积极拥抱了开源路线,其中重要的版本包括了DeepSeek LLM 67B、DeepSeek-MoE、DeepSeek-V2、DeepSeek-V2.5、DeepSeek-V3、DeepSeek-R1,R1在模型能力上比肩了当前最先进的闭源模型,同时在成本方面优势明显。
通过梳理开源阵营和开源大模型发布的时间线,我们可以看到DeepSeek的R1和V3模型开源的意义表现在不光追平了最先进的闭源模型的能力,同时在成本上形成了明显的优势,代表了更先进的模型发展方向,所以结合两个维度来看,意味着开源大模型在先进性上首次超越了闭源大模型。
3.2. DeepSeek开源条款更加开放,有利推动模型的推广和应用
Meta:其在2023年2月推出Llama-1的时候仅可用于研究,而不能进行商用,到2023年7月推出的Llama-2才进一步开放到可以进行商用,2024年7月推出的Llama-3.1中,Meta进一步允许使用其模型的输出来改进其他模型。Llama在模型的使用上仍需遵守特定的许可条款,如月活用户超7亿需额外申请许可(涉及被许可人的关联方),同时其受加利福尼亚州法律管辖,加利福尼亚法院具司法管辖权,或影响受贸易制裁的企业的使用。
阿里:以Qwen2.5为例,在2024年9月发布的7个不同体量的基础模型中,主要都是遵守Apache2.0,其中规模最大的720亿参数模型为Qwen许可,30亿模型为Qwen Research许可。以Qwen许可为例,允许商用但需要标注通义千问的贡献,要求当产品拥有超过1亿的月活跃用户需要向阿里云申请许可证,同时规定了模型复制、分发、利用产生的争议适用于中国法律,杭州法院具司法管辖权。阿里在R1后开源的QwQ-32B选择了Apache2.0,或是受到DeepSeek的压力,表现得更为开放了。
DeepSeek:DeepSeek使用MIT协议,可以商用,且未规定用户特定的许可条款,未规定法律管辖相关条款。MIT与Apache同属于较宽松的开源协议,但是Apache要求在衍生作品中包含原始许可证、版权声明和贡献者声明等,MIT协议则更加简单宽松。
通过以上对比来看,DeepSeek在开源协议上保持了更加开放的精神,对于大型企业更加友好,对于全球被许可人来说,也可以避免受到国际政治及法律变化的影响。
在Deep-R1和DeepSeek-V3发布以后,海内外云厂商都快速接入了DeepSeek的模型并提供MaaS服务,省去了开发者买卡、装驱动、配网络、配存储、装环境、装框架、下载模型等繁琐步骤。同时,包括昇腾、昆仑芯、寒武纪、飞腾、海光在内的国产芯片也都对DeepSeek进行了适配,加速了国产替代进程。下游的软件厂商也都快速接入了DeepSeek,加速了在大模型的应用落地,也可以很好地满足更多私有化的行业需求。
对比手机操作系统来看,安卓通过开源策略成为了除苹果以外的众多手机厂商的首选。根据Canalys数据,从2024年全球智能手机出货量市场来看,安卓占据了约78%的市场份额,也极大地降低了手机厂商和应用厂商发展的门槛,促进了手机生态的成熟。因而,业界也对大模型开源生态的发展给与积极的响应。
在闭源生态发展的过程中,由于中国企业上云(特别是公有云)比例远低于海外,AI的B端应用推广也因此受限。而随着最强大模型的开源,国内大模型的发展也将加速展开。
3.3. DeepSeek将核心代码悉数开源,极大地促进了AI技术的发展
传统软件开源的定义中,关注点在于源代码的公开可获取,来自全世界的开发者可以很容易地为软件提供贡献。而对于大模型来说,涉及到的核心要素包括了模型架构、用于模型训练的代码、模型参数、用于训练的技术和方法、标记训练数据的程序、支持库以及用于模型训练的数据等等。
正是因为认识到了传统软件开源与模型开源的差异,2024年10月28日,开放代码促进会(OSI)发布了其开源AI定义1.0版。根据这一定义,开源AI模型必须提供足够的信息,使任何人都能够实质性地重建该模型,其中要点包括:
(1)模型参数:包括模型的权重和配置,需提供向应用的访问权限;
(2)模型代码:需要公开用于训练和运行AI的完整源代码,展示数据处理和训练的规范;
(3)训练数据:训练数据的来源、处理方式以及获取或许可的方式。
同时OSAID还规定,开发者应享有使用、修改和共享模型的自由,而无需获得他人许可。由于OSI的定义较为严格,Llama和Gemma等主流大模型都不符合开源大模型的定义,但是OSAID给出了度量开源大模型开放程度的理想化方向。
在DeepSeek R1的开源仓库中,包括了配置文件、模型代码、模型参数、文档说明、模型卡片、模型许可证等,是典型的大模型开源仓库。同时DeepSeek还一并发布了详细记载R1训练过程的论文,一同开源的还包括了DeepSeek-R1-zero 和6个蒸馏的小模型。
2025 年 2 月 24 日,DeepSeek 拉开了 “Open Source Week” 的帷幕,一场为期 6 天的代码库开源活动就此展开。从芯片级优化到系统级设计,从算法到工程实现,DeepSeek通过破译英伟达后台指令,并巧妙地使用,极致优化了算法性能。在此次活动中,DeepSeek 将其在节省算力和高效运算方面的核心技术毫无保留地进行了共享,MLA、EP专家并行、矩阵乘法、流水线并行优化算法DualPipe、负载均衡器EPLB、文件处理系统3FS的核心代码悉数开源,在全球范围内引起了广泛的关注和强烈的反响,其开源的诚意也赢得了全世界的赞誉与认可。
在开源代码库源码以后,DeepSeek还在3月1日对外发布了《DeepSeek-V3 / R1 推理系统概览》,其中最值得关注的部分是DeepSeek披露的“线上系统的实际统计数据”,揭示了原厂在性能优化后提供DeepSeek MaaS服务的真实盈利水平。DeepSeek高达85%的理论毛利率水平,将成为MaaS服务的效率标杆,同时将吸引跟多厂商加大在DeepSeek相关服务的投入。
通过DeepSeek的测算,其每节点(8张H800的AI服务器)的平均吞吐输出为8575 Tokens/s,而英伟达在2月25日公布的8张H200和B200 节点的R1推理吞吐分别为5899 Tokens/s和21088 Tokens/s。这意味着DeepSeek通过这套算法优化,在显存(80GB vs 141GB)和带宽(2TB/s vs 4.8TB/s)都远不及H200的情况下,实现了151%的性能超越。
同时,考虑到DeepSeek可以通过低成本取得大厂闭源系统同等水平的大模型,那么DeepSeek也可以在前期实现更加纯粹的和具有可持续性的开源、开放,从而加速建立出一个庞大AI开源生态体系,也借助这样的开源实现群策群力,更快地走向AGI。
此外,DeepSeek的开源,也极大地刺激了大模型厂商的开源力度。百度宣布了将在6月30日开源文心大模型4.5;OpenAI也宣布GPT-5将对ChatGPT免费用户无限量开放,同时也在考虑加大开源策略;连一向低调的火山引擎也开源了“大模型应用实验室”,加速AI应用的开发。
4. AI产业发展趋势的预判
随着o1这类推理模型的出现,我们看到大模型开发范式也发生了根本性的变化。以往模型的算力主要集中在预训练(Pre-training)阶段,而未来模型在后训练(Post-training)阶段消耗的算力进一步加大,同时由于模型在推理阶段需要进行更长时间的思考过程,单次推理耗费的算力也进一步增长。
应用爆发期,B端AI应用成为了企业应对科技变革冲击的重要手段,也将给原来的行业软件服务商带来部署的机会。同时,如同医疗、政务等领域的AI落地,Manus的突然火爆,AI效能改变已经成为了市场的共鸣,相关爆款应用也会成为了资金的关注点。同时,腾讯、阿里、字节、小米等科技大厂也在加速AI投入,完成向下个时代的布局。
虽然大模型推理成本在下降,但是由此带来的应用爆发有望带来更多的应用需求,成为下一阶段拉动算力增长的主要驱动力。从模型的单次调用,到Manus类型的Agent通过一系列调用产生结果,将带来服务的请求密度几何倍增长;从App的搜索提问辅助工作生活,到手机终端一类的应用落地形成日常调用,模型调用需求将在种类和频次上获得极大的提升。
从DeepSeek、QwQ到Manus,从宇视科技出圈到智能驾驶的全面推广,2025年中国科技圈亮点频现,正在完成一个从量变到质变的过程。考虑到中国有互联网应用的领先优势、在数据端的长期积累和庞大的工程师团队,在底层模型能力实现突破以后,我们在AI应用的发展有望实现全球领先。
5. 河南借助智算带动人工智能应用发展
2024年11月14日河南省出台了《河南省算力基础设施发展规划(2024—2026年)》,并提出了在2026年全省算力规模超过120EFlops、智算规模达到100EFlops以上的发展目标,同时规划智算、超算等高性能算力占比超过90%。对比全国来看,河南目前不论总算力、智算算力、智算占比目标都名列前茅,也意图将算力和人工智能作为新质生产力来带动河南的发展。
在DeepSeek-R1发布以后,河南省本地数据中心也在加快接入DeepSeek的相关模型。鹤壁市城乡一体化示范区的京东云(中原)算力中心在2月7日上线了DeepSeek模型部署和推理服务,成为河南省第一个提供该服务的城市级算力中心,河南空港智算中心也在2月8日接入全量级DeepSeek-R1和多模态DeepSeek-Janus-Pro模型。
6. 风险提示
国际局势的不确定性;下游企业削减开支。
证券分析师承诺:
本报告署名分析师具有中国证券业协会授予的证券分析师执业资格,本人任职符合监管机构相关合规要求。本人基于认真审慎的职业态度、专业严谨的研究方法与分析逻辑,独立、客观的制作本报告。本报告准确的反映了本人的研究观点,本人对报告内容和观点负责,保证报告信息来源合法合规。
重要声明: