等不来DeepSeek-R2的246天:梁文锋的“三重困境”与“三重挑战”

大模型之家·2025年09月23日 18:11
时间的流逝,正在成为DeepSeek最沉重的成本

9月22日晚间,DeepSeek官方突然发布更新,宣布DeepSeek-V3.1 现已更新至 DeepSeek-V3.1-Terminus 版本。官方表示,此次更新并非简单例行迭代,而是针对用户反馈中集中出现的问题进行了改进,在保持原有能力的同时,进一步提升了模型的稳定性与一致性。

消息一经发出,不到一个小时便收获了一条“10w+”,足以见得行业对于DeepSeek的关注程度与影响力。

然而,市场的热烈反应背后,也夹杂着一丝失望:备受期待的新一代推理模型DeepSeek-R2再次缺席。这不仅是一次期待的落空,更像是一面棱镜,折射出这家明星创业公司,从年初以R1模型一鸣惊人,到如今核心产品迭代的持续延迟,在狂飙突进246天后的焦虑、挣扎与抉择。梁文锋和他的DeepSeek,正在上演一出中国大模型领域最富戏剧性张力的“现代启示录”。

01

市场预期管理失焦:R2发布如“镜花水月”

当我们把时间的指针拨回2025 年的早春,彼时,DeepSeek-R1的横空出世,如同一声惊雷,在中国乃至全球的AI领域炸响。其卓越的数学与代码推理能力,不仅在多项基准测试中对标甚至超越了OpenAI的顶尖模型,更重要的是,它以一种彻底开源的姿态,将推理大模型的门槛拉至前所未有的低位。DeepSeek因此一战成神,成为那个“春节档”最耀眼的国产AI明星,创始人梁文锋也被寄予了挑战硅谷巨头的厚望。

DeepSeek-R1推出的那一天,就为梁文锋治下的深度求索,留下了两个难以抹去的烙印:一是“开源且低成本”成为它的标签,二是外界由此对其下一步的期待被抬到了很高的位置。

图说:梁文锋的低调风格,也让关于他的寥寥几张图片快被网络“盘”到“包浆”了

然而,辉煌的序章之后,故事的走向却变得扑朔迷离。行业对下一代推理模型DeepSeek-R2的期待,随着时间的推移,演变成了一场反复上演的“狼来了”的故事。据大模型之家统计,截至2025年9月23日,距离R1发布已过去整整246天,而关于R2的发布传言,已不下10次。

这场漫长的“悬念剧”始于2月,路透社首次援引信源,称R2“最迟5月初发布”,并暗示其在代码生成和多语言推理上将有重大突破,瞬间点燃了市场的热情。随后的几个月,传言变得愈发具体和密集。3月,行业内开始流传“3月17日发布”的精准日期;4月,Hugging Face代码库的蛛丝马迹似乎暗示着即将到来的更新;而到了5月,传言达到了顶峰,一份详尽的参数信息在网络上泄露,直指R2将采用革命性的“Hybrid MoE 3.0”架构,总参数量高达惊人的1.2万亿。

然而,期待中的5月发布会并未如期而至。随之而来的是更多混杂着失望与猜测的消息。有传闻称,发布延期是因为CEO梁文锋对模型内部测试的性能不甚满意,认为尚未达到对R1的“碾压级”优势。更关键的是,来自外部环境的压力开始显现——英伟达 H20芯片的供应问题,成为悬在所有中国AI公司头上的达摩克利斯之剑。

此后的故事线更加曲折。6月,消息称R2的内部测试结果显示,其性能提升并未达到颠覆性的程度。7月,万众瞩目的世界人工智能大会(WAIC 2025)上,DeepSeek的缺席让R2发布的希望再度落空。8月,关于“月底发布”的传言再次甚嚣尘上,但很快被官方辟谣。直到9月初,彭博社的报道才给出了一个新的时间窗口——计划于第四季度发布,并将主打当下最热门的Agent(智能体)能力。

在长达八个多月的时间里,DeepSeek官方始终未公布R2的明确发布计划。这种反复的传言与落空,在客观上造成了市场预期的管理失焦,也消耗了部分用户的耐心。更重要的是,在DeepSeek等待R2的这段时间,其主要竞争对手,如阿里巴巴的通义千问(Qwen)和百度的文心大模型(ERNIE)等,均已完成了多轮重要的功能迭代和模型升级。

在这场无声的竞赛中,时间的流逝,正在成为DeepSeek最沉重的成本。

02

延迟的“三重困境”:

开源生态的繁荣与核心产品的缺位

如果仅仅将这八个多月定义为“等待”,那对DeepSeek而言无疑是不公平的。事实上,在R2缺位的日子里,DeepSeek非但没有停滞,反而在另一个维度上展现出了惊人的能量和战略远见。梁文锋选择了一条更为艰难但可能也更为长远的道路——构建一个从底层模型到上层工具链完全开源的全栈技术体系。

这是一场围绕“开源驱动创新”展开的“阳谋”。在核心模型层面,除了打响名声的推理专用模型DeepSeek-R1,DeepSeek在3月又开源了通用模型V3.0324,其API成本仅为GPT-4的1/14,几乎是以“倾销”的方式,将大模型的使用成本打到了“地板价”。随后,融合了代码与对话能力的DeepSeek-V2.5,以及多模态文生图模型Janus-Pro也相继开源。这一系列组合拳,让DeepSeek成为了国产AI技术普惠的关键推动者之一。

在基础设施与工具链层面,DeepSeek同样进行了深度布局,开源了一系列旨在提升训练和推理效率的关键组件。例如,针对GPU优化的FlashMLA解码内核和DeepGEMM矩阵运算库,官方数据显示可提升约30%的推理速度;为混合专家(MoE)模型设计的DeepEP通信库和DualPipe流水线算法,有效降低了分布式训练的通信延迟;而名为3FS的超高速分布式文件系统,则为大模型训练提供了高效的数据读写支持。

尤为关键的是,DeepSeek的开源并非仅仅停留在代码层面。他们敏锐地捕捉到了国产算力崛起的趋势。其开源的工具链不仅支持主流的英伟达GPU,还同步推出了适配华为昇腾平台的解决方案(如MindIE镜像)。这一举措有助于推动国产AI算力在实际应用场景中的落地,具有重要的产业价值。庞大的开源体系为DeepSeek带来了正向的生态循环。全球开发者基于其模型进行量化(如INT8/INT4版本),降低了部署成本,并围绕医疗、金融等垂直行业进行微调,丰富了应用场景。

然而,这耀眼的A面,却无法掩盖其B面深刻的隐忧。R2的迟迟未能发布,正是这些隐忧的集中体现。DeepSeek-R2的推迟,至少面临着三重困境。

首先是技术突破与算力供应的核心矛盾。据英国《金融时报》等媒体报道,R1发布后,DeepSeek在相关方面的鼓励下,曾尝试使用华为昇腾芯片进行下一代模型的训练。然而,从英伟达的CUDA生态迁移到昇腾的CANN生态,其难度远超预期。训练过程中的不稳定和性能瓶颈,严重拖慢了研发进度,甚至一度迫使团队将关键训练任务切回NVIDIA平台。这场“算力长征”的艰难,或许是导致R2延期的最直接、最核心的技术因素。

其次,资本的狂热与市场的超高预期,放大了传言的传播效应,也给DeepSeek戴上了沉重的“枷锁”。R1的成功让DeepSeek成为了资本市场的宠儿,估值水涨船高。每一次关于R2的传言,都能在资本市场掀起波澜。这种高度关注,既是动力也是压力,它迫使DeepSeek必须拿出一款超越性的产品,任何一点瑕疵都可能被无限放大,从而导致团队在发布决策上慎之又慎。

最后,在激烈的行业竞争与中美技术角力的背景下,构成了R2发布最严峻的外部压力。在国内,阿里、百度等巨头凭借强大的资源整合能力,在模型迭代、产品落地和生态构建上步步紧逼。在国际上,美国对先进AI技术的出口管制日益收紧。DeepSeek既要面对国内市场的“内卷”,又要应对国际环境的“脱钩”风险,其战略选择空间正变得越来越狭窄。

03

DeepSeek与梁文锋面临的“三重挑战”

当前,DeepSeek及其创始人梁文锋正不得不面临着来自技术、战略和市场三个层面的严峻挑战,这种局面使其在后续发展路径的选择上变得异常艰难。

第一重挑战,是如何在技术上实现自我超越,即“创新者的窘境”。DeepSeek-R1在推理能力上的突出表现,已经为公司树立了极高的技术标杆。这意味着R2必须在性能上实现质的飞跃,而非简单的参数提升或常规优化,才能满足市场的期待。

如果R2的提升幅度有限,很可能会面临类似于今年GPT-5发布后,行业普遍认为其创新力度不足的评价。对于一家以技术驱动的创业公司而言,这种来自内部的、超越自我的压力,是其决策过程中必须考虑的首要因素。

第二重挑战,是公司在技术路线上的战略短板,特别是在多模态能力上的“缺位”。当前,全球顶尖大模型的发展趋势已明确指向文本、图像、音频、视频等多模态能力的融合。无论是通过多模型能力调用协议(MCP)整合不同模型,还是发展原生的多模态大模型,都已成为行业共识。

相比之下,DeepSeek至今发布和开源的模型仍主要集中在文本和代码领域,旗下多模态文生图模型Janus-Pro并未在行业掀起波浪。这种技术路线上的单一性,可能会使其在未来以多模态为核心的应用场景竞争中处于不利地位,限制其生态的广度和商业化的想象空间。

而国内的另一家大模型公司MiniMax为例,则走向了另一个极端:其从创业初期就专注于多模态技术,并已推出了成熟的产品,但囿于当前主流大模型能力评估体系,仍以语言模型为基准。这使得 Minimax 在模型排名、社区认可度、学术引用等“行业标尺”上较为边缘,其开源的大模型 MiniMax-M1,在Hugging Face等平台的活跃度远低于DeepSeek。此外,其主打的线性注意力机制与混合专家系统(MoE)虽然理论上具备效率优势,但在实践中尚未充分验证其长期可控性和泛化能力,也让MiniMax 40亿美元估值屡遭质疑。

第三重挑战,是需要面对DeepSeek面临的生态问题。自今年年中开始,网络中关于“DeepSeek变笨了”的讨论不绝于耳,调查发现虽然R1模型在数学推理上表现优异,但在涉及创意、事实性内容时却频繁出现“幻觉”。

而这背后,正揭示出DeepSeek在内容生态上的“先天”短板。大型科技公司如百度、字节跳动等,其优势不仅仅在于资金和技术,更在于其庞大的流量入口和内容生态系统。例如,百度拥有搜索、贴吧、文库等一系列产品,而字节跳动则有抖音、今日头条、西瓜视频等。这些平台不仅为用户提供了稳定的流量入口,更重要的是,在用户与内容交互的过程中,源源不断地产生着最新的、鲜活的数据。这些数据经过清洗和处理,可以持续地为大模型提供高质量的训练语料,形成一个良性的“数据飞轮”——模型越好,用户越多,产生的数据越新,模型迭代越快。

DeepSeek目前并不具备这样的内容生态优势。其模型能力的提升,更多依赖于外部公开数据集和合作方提供的数据,缺乏像百度、字节那样自有的、能够实时更新的“活水”。当模型在训练过程中无法有效甄别和清洗受污染的语料时,就可能导致“幻觉”现象的加剧。这种“幻觉”,不仅仅是简单的信息编造,更可能表现为逻辑混乱、事实错误,甚至答非所问,这无疑严重影响了用户的信任感和使用体验。对于一个致力于商业化的大模型来说,用户信任是其产品生命线的基石,而“幻觉”问题,恰恰是横亘在其商业化路径上的一大障碍。

04

写在最后

因此,对于梁文锋而言,是如何平衡内部研发节奏与外部市场竞争的压力。R2的延迟发布,为竞争对手提供了追赶和反超的时间窗口。在快速变化的大模型市场,技术领先的优势稍纵即逝。梁文锋必须在“追求技术极致”与“抢占市场时机”之间做出权衡。

发布一个性能未达内部最高标准但能及时卡位市场的产品,还是继续打磨一个可能错过最佳发布窗口的“完美”产品,这是一个艰难的战略抉择。同时,叠加算力迁移带来的工程挑战,使得这一决策过程变得更加复杂。

不可否认,DeepSeek-R1的发布对行业产生了深远影响。它不仅证明了国内团队在核心推理模型领域的研发实力,更重要的是,其开源策略极大地降低了AI技术的应用成本,打破了海外少数厂商在高端模型领域的垄断,为推动整个行业的创新和普及做出了重要贡献。

在大模型之家看来,DeepSeek当前所面临的困境,并非个例,而是国内顶尖AI公司在向更高技术水平迈进过程中普遍面临的挑战缩影。市场期待R2的最终发布,不仅是期待一款性能更强的模型,也是在观察DeepSeek如何在技术瓶颈、战略短板和激烈竞争的多重压力下,给出自己的解决方案。DeepSeek和梁文锋给出的答案,也将对国内其他AI公司的发展路径提供重要的参考和启示。

本文来自微信公众号“大模型之家”,作者:何煦,36氪经授权发布。

+1
81

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

多家机构研究表明,这一趋势仍在延续,但节奏有所放缓。

2小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业