对话AI“老炮”邹阳:AGI不是你该关心的,现在的技术足够改变世界
距离ChatGPT的横空出世,已经过去了三年。
三年时间,市场对于AI的热情并没有丝毫褪去,反而赌注越下越重。但在资本持续加码的喧嚣背后,盲目的兴奋感正在被一种具体的焦虑所取代:这波AI浪潮的终点到底在哪?什么才是落地的正确姿势?
在大多数人还在仰望AGI(通用人工智能)的顶峰,或者迷失在对话框里的时候,未来式智能联合创始人兼COO邹阳给出了一个冷静且独特的判断。
“沿着大语言模型这条路大概率不能登顶AGI。不过这不重要我也不关心。重要的是,在半山腰足够改变世界。”
在邹阳看来,半山腰的技术能力,已经具备了全部产品落地产生价值的可能性。AI真正的战场不在于做一个陪聊的聊天机器人,而在于潜入产业流程,成为企业里那80%重复、高频、规则与判断聚合的脑力工作的“外接大脑”。
这种判断力,源自邹阳在AI行业深耕多年的体感。
邹阳算得上经历了AI 从 1.0 走向 2.0 的完整周期。从魅族 AI 实验室,到搜狗语音交互技术中心,再到阿里巴巴达摩院,他的职业路径几乎与行业演进同步。
在达摩院期间,他负责的智能语音语义产品线连续多年在国内AI 云服务市场占据第一,属于那批最早把技术推向大规模商用的人。
他见过人工智能被视为“云资源钩子”的年代,技术存在,却难以真正被使用;也亲历了模型能力跨过临界点的那一刻——从“能用一部分”到“可以被依赖”。这段长期浸泡在产业现场的经历,也让他对今天的 AI 浪潮有着不同的理解。
正因为如此,邹阳成了最早选择下场创业的那批人。
2023年6月,当AI Agent(智能体)概念尚处萌芽阶段时,他与来自达摩院的老同事杨劲松共同创立了未来式智能。团队迅速推出了国内首个企业级智能体构建平台——“灵搭”,并一头扎进了电力、能源、制造等最“重”的行业场景中。
在他看来,与其焦虑技术何时登顶,不如先在半山腰把那些难却正确的价值实现,在企业里规模落地。
以下是他的思考与实践。
大模型迭代,陷入“自证陷阱”模型
硅基君:GPT发布的时候,你还在达摩院,当时第一反应是什么?
邹阳:ChatGPT出来前,算是AI 1.0时代,能规模化落地的事情非常少。很多人工智能技术其实就是帮云资源当“钩子”的。你把技术秀一下,客户觉得牛逼,就买了云服务,但AI技术本身在当时普惠性非常低,投入与产出也完全不成正比。
当时达摩院内部,其实对GPT3.5有预期,21年达摩院在云栖大会上发布了一个百亿参数量大语言模型AliceMind,当时还是劲松发布的,我们的结论这技术拿它做做海外电商广告文案这种高容忍度的场景还行,但也仅限于此了。
GPT3.5发布以后,我大概一个月的时间处在完全的焦虑过程中。打个比喻,就是玩了60年的游戏正式版突然上线了,新手村最后一道怎么也越不过去的门打开了。但是一出村就发现,这个游戏的世界可能全变了,你都不知道要往哪儿走,甚至连刷出来的怪物都是你以前从来没有见过的。
作为一个专业的高玩,焦虑来源于你需要对新世界的底层机制有一个通盘的了解,你得知道在这个世界,什么是能做的,什么还不能做。
我一直想像卢娜他爹(哈利波特里的一个角色)一样出本杂志,名字也叫《唱唱反调》。焦虑过后,我得出了几个判断:
第一,沿着大语言模型这条路大概率不能登顶AGI。不过这不重要我也不关心。重要的是,在半山腰足够改变世界。现阶段,全行业真的可以被这半山腰的技术全部重新改造一遍,产生极大的普世 价值。
第二,这波技术革命最大的价值,短时间内,我觉得不在聊天框里,什么陪伴、心理、真人,toC的下班用场景。不是说技术达不到,只是不靠代际差相关产品心智形成不了,也非常考验产品和技术的磨合,没有长期主义的匠人是造不出来的,且一定还需要硬件创新配合。
这波技术革命最大的价值,是可以把上班场景里80%“照章办事”的完全用新技术给一线的打工人们赋能,把他们从无聊的工作中解救出来,去思考更有价值的事情;对企业来说,日常的知识性的工作也可以像生产车间一样,构造出一条知识加工的流水线,完成高频、高重复度、高标准化的低智力密集型的知识工作。
23年3月份我们开始组队创业,到现在我们也在一直是这样践行的。
硅基君:从ChatGPT发布到现在已经三年了,你对AGI这个判断有变化吗?
邹阳:没有。
普通人有一个很好的思想上自我防卫的武器,叫做常识,确实需要以史为鉴、总结经验来给它不断升级。
这一波真正跨过“奇点”的是 GPT-4,而不是 GPT-3.5。
我认为,GPT4真正完成了一次全人类级技术的革命性飞跃,后面想在短短几个月内,甚至几年内再来一次同量级的飞跃,几乎不符合技术发展的常识。
回看人类技术发展史,第三次科技革命到现在也有近百年,从2018年Transformer发布,到现在,也不过小几年的时间,曲线很难在一个里程碑之后立刻再次陡直上冲,怎么也得20年。
从技术角度看,Transformer 这条主干从 2018 年确立以来,行业更多是在同一套框架里做工程化优化和渐进式改良。如果底层范式没有新的迭代,仅靠继续堆数据、堆算力,很难再复刻一次类似 GPT-4 的再造“奇点”。
硅基君:这是一种基于历史经验的直觉,还是有判断的依据?
邹阳:从个人体验上来说,最近一堆新模型发布,只要你去用,你就能知道新模型相较上一代也并没有带来质变,对于一个Prompt Engineer的熟手来说,只是更省你的事儿了。
当然,benchmark 上能看到一些提升,但我们做应用的更看重“真实场景里能不能把原来做不动的事做动”。至少在我们第一时间拿它去打那些旧模型解决不了的问题时,结果并没有质的改变。
举个最直观的例子:分类。我们把业务规则尽量用提示词梳理清楚,做上下文工程,让模型去做一千多类客服业务反馈的细粒度分类。上一代模型的准确率大概在70%–80%,新模型也就多提高了几个百分点,时效性、上下文长度、幻觉,都存在,多少的问题。
这就带来一个问题:如果从大厂的宣传口径看,投入巨大、声量很大,今天这个超越了一切,明天那个又超越了昨天的。按理说能力应该“肉眼可见”地跃迁,但落到应用侧只涨几个点,说明技术本身正进入明显的边际递减阶段——更新还在继续,但很难再靠同一路线再上一个大台阶。
所以,你会看到,行业大量工作开始变成“修修补补”:更好的对齐、更强的工具调用、更稳的输出、更低的成本。这些改进很重要,但它们更像工程化增量,很难单靠这种补丁式迭代再产生一次结构性的巨大变革。
这种投入状态,有点像感情里的自证陷阱:对方说“你不爱我了”,你就开始拿无数小细节去证明“我爱你”。证明越多,反而越说明问题不在细节,而在底层逻辑本身就站不住。
硅基君:那怎么看待o1模型的成功,在很多人看来,它代表一种新的扩展范式?
邹阳:o1确实是一个里程碑,但我的观点是它更多是来自于机制的创新。
它是在模型内部自动生成思维链(Chain of Thought),用这个机制去提高推理效果。但模型本身的理解和推理能力的上限,还是由基础模型决定的。这就相当于你给一个普通人更多的时间去思考,他确实能表现得更好,但他并没有变成天才。
硅基君:当大量资本涌入AI行业,会不会加速下一个奇点的到来?
邹阳:我更倾向于把“下一次AI范式突破”看成一类极少数问题:它属于那一小撮同时具备顶尖智力、方法论和研究自由度的人,而不是靠更多资本砸进去就能解决的事。
钱当然重要,但在这种层级的问题上,边际效用会迅速下降,资本多到一定程度也未必能换来突破。就像llya说的,科研确实需要算力,但并不需要绝对最多的算力。真正需要的是正确的问题和新的方法。
真正的阶跃式突破,往往需要的是少数科学家带着一个高强度的小团队(今后可以是AI了),配上先进的工具持续攻坚,资源不一定要无限大,但组织要足够专注、足够聚焦。然后,再加上好运气。
硅基君:如果说Scaling Laws结束了,这对AI行业意味着什么?
邹阳:我觉得会带来两个变化。
第一,资源分配要变。除非你是那种少数具备“跨越式突破”能力的顶级团队,否则不该继续把主要资源和精力押在追下一次大台阶上。更现实的选择,是把现有资源拿来,踏踏实实嵌进业务,做工程化、做产品、做闭环。
第二,应用的窗口期其实已经到来。原因不是“模型进化多快”,而是相反:模型能力的增量变小了,反而意味着边界更稳定、技术投入回报可预期性更强。
同时,当前模型能产生业务价值的能力已经足够,你完全可以基于它重新梳理流程、重做场景,把过去做不动的事做成可规模化的产出。
行业经验的结构化复制,才是这波AI最大的价值
硅基君:如果AI技术停留在“半山腰”,应用机会在哪里?
邹阳:我觉得之前市场被带偏了。23年、24年,大家关注的精力主要都集中在模型上。超大客户花几千万去买一个闭源模型,这种情况在国内屡见不鲜;随之而来的是模型效果不好,然后就微调,各种调。
不是说微调没效果,微调开源模型是对数据、算力、人才要求都非常高的一种提效方式,应该在判断现有模型能力不足时候,尝试使用。
感慨的是,即使在当前25年都要结束了,好多人还是没有正确掌握通用大模型的使用方式。
现在谈模型应用,谁要在我面前说,把这些数据训练一下,让模型学习一下,就成判定基本是个外行。
新技术的最大价值是它真的可以成为一个真正意义上的“数字专家”,解决产业上所有知识性工作无法流水线化的问题。
硅基君:展开说说?
邹阳:举个例子,在电力系统中,特高压换流变设备,很精贵,每年因为它导致的系统停运占比高达40%。长期高压高热,内部的绝缘油在局部放电、过热和受潮的时候,会裂解出类似氢气、乙炔、一氧化碳等等气体。
以前这项工作全靠老师傅定期巡检,老师傅会看传感器给出的数据,进行计算、比对,结合几十年来的经验和直觉,大概率可以对故障进行判断,进行预防性检修。但是人会出错,也无法24小时时刻值守。
但如果你把老师傅的工作进行拆解,它做的工作无非就是阅读传感器的数值,进行计算,按照计算的结果去查询手册,来进行“照章办事”。
我们现在让智能体来模拟老专家,对故障进行判断。比如,简单的各种气体的比值计算和预警,无非就是把传感器的各种接口对接上,实时获取数据,然后计算相关的特征值,氢气的含量和增速,乙烯和乙炔的比值等等,然后查查手册,判断是否需要注意和报警。
面对一些复杂的问题,智能体通过调用知识库(历史案例库),也能给出可能的原因。
比如,数据显示某三个比值异常,系统在数据库里找到两个“非常相似”的历史案例,针对案例的详细内容展开分析,提取不一样的点,再结合处置手册和现有数据及历史数据的差异,让模型去做特定范围的推理。
硅基君:这相当于把专家经验进行“结构化复刻”,那我们怎么抽离这种规则呢?
邹阳:调研。我们只需要把问题问清楚,让专家按自己的语言回答就行了。一次一小时的访谈,结合大模型就能把这套业务逻辑整理得清清楚楚,配合图谱的技术,沉淀成结构化知识。然后再让专家来修改完善,这在过去几乎是不可想象的。专家自己写不出经验,技术人员问不出专业问题。
更重要的是,企业里大量散落的“过程文档”——方案、手册、邮件往来、各类内部记录,现在都能被模型读懂、分类、提炼。人机协同,能自动把隐性的经验抽出来,变成显性的、可复用的逻辑。
通过以上两种方式,企业就能把自身的“运转规则”真正完整地沉淀下来,再拆解一个个场景的具体需求,围绕这些场景去做成一个能稳定运行的智能体。
硅基君:现在大模型能干的事,以前的AI干不了吗?
邹阳:干不了,原因有两点。
一是成本,你得把所有规则写成if-else,逻辑梳理得极其精细,一点歧义都不能有。成本巨大,而且基本无法覆盖真实业务里的复杂性。一线情况或者其中一个环节变了,你还得花大量的资源更新迭代。
二是大部分业务规则来自于一线业务员的经验,在电网、制造业,那些最有价值的经验掌握在老师傅手里。他们不懂代码,也写不出SOP(标准作业程序),甚至沟通也比较费劲,但他们看一眼就知道变压器的数据,凭直觉就知道哪里有问题了。
这种“隐性经验”,是传统AI无法处理的盲区。
大模型带来的真正革命,是它让“经验逻辑”变成了可以理解的东西。师傅总得带徒弟,你让老师傅像教徒弟似的用大白话讲出他的判断逻辑,模型就能读懂,并结合现场数据就可以给出解决方案。
硅基君:在电网检修这种工作下,用大模型做判断,会不会不够严谨?
邹阳:我觉得我们在搞工程落地,看的是效果。这也是这次技术革命要改变的一个认知。
有人觉得既然都是机器工作,那业务场景里的判断必须像传统软件一样严丝合缝,正确率必须达到100%。但在真实的基层一线,几十万工作人员每天都在凭经验做判断。那为什么一个能力比老师傅更稳定、不疲劳、不走神、逻辑更一致的AI,反而不能用?
硅基君:电网变压器只是一个很小的场景,您觉得类似变压器这种适合AI落地的场景还有多少?
邹阳:变压器只是电网系统里很小的一个设备,一个变压器可能有100个场景,一个变电站可能有1000个,理论上所有的故障研判的方式都能用类似的方法来完成。国家电网130多万的员工,干这种一线的设备检测的,十万人是有的。
放在其他行业,这样的场景可能更多。绝大多数人日常做的,其实是依照前辈经验、照着SOP 一条条往下走的流程性工作。无非就是部分场景规则复杂一点,需要注意的事情多一点。那他总归要教徒弟的,他但凡他能教徒弟,他就一定能教大模型。
我觉得一家企业里80%-90%的工作,都是类似照章办事的工作。所谓“脑力工作”,其实很多也只是照章办事、沿着经验走流程。
最近听我朋友说一个案例,一家全球顶尖的制造业厂商,他们要为某款设备开发一款新的材料,需要具备一些特殊属性。流程是这样的:
工程师先上Google、百度查资料,看论文,搜文献,再回到企业自有的知识库和自己的硬盘里里翻以前的项目报告,找有没有类似的案例。
然后凭着经验和直觉,在脑子里形成一个大致的方案:材料选哪些、比例怎么配、怎么混合、预计效果如何。最后再根据这个方案去实验室配料、测试、出结果。
听起来像是一个“高智商、高门槛”的流程,但你仔细看,本质就是经验复用 + 文献检索 + 配方组合。模型现在的能力,已经完全覆盖了一个化学博士所需要的知识深度。
只要对老专家的工作流程拆解的足够细致,基于大语言模型的智能体完全能复刻这些专家的隐性经验和实现方式。
它不仅能理解需求,还能自动从历史文档里找出相关材料,生成配方方案,甚至连“为什么要这么配”的依据都能解释清楚。过去一个工程师要花几天甚至几周才能做出的初步方案,现在模型几分钟就能做出来。
硅基君:从梳理行业Know-how再喂到AI,最终输出智能体解决方案,整个过程需要多久?成本又是多少?
邹阳:这个过程确实需要人,但投入是可控的。三到六个月,就能把一位资深专家脑子里的判断逻辑、经验路径梳理清楚,做成一个可部署的数字专家系统。
接下来要做的,只是把这些“边边角角”补全。刚才说了,一个变压器可能有100个场景,一个变电站可能有1000个,一个城市可能要覆盖上千、甚至上万个场景。把所有场景都做完,确实需要三到五年,有些行业甚至可能要十年。
更关键的是,规模化的成本很低。以前的规模化是复制真人,复制真人的成本非常高,选拔、学习、实践,几十年就过去了,还有学习效果漏斗和人本身的缺点。现在不同了,当你用大模型把一个城市几千个场景落实一遍,数字专家就像软件一样,可以直接复制到下一个城市、下一个省份,无病无灾,24小时不间断工作,边际成本几乎趋近于零。
硅基君:当下,AI技术在场景落地的关键是什么,技术还是其他因素?
邹阳:AI技术的革命性已经足够大,足以颠覆很多行业,但真正稀缺的是“会用的人”。
我再把话说直白点,目前模型能力大致相当于一个“普通博士生”。你就算招顶尖的博士生进公司,不给背景、不教业务、不搭流程,就指望他们凭直觉直接把工作做成,这是不可能的。
很多高价值、复杂的工作,并不是模型自己完成的,而是“人带着模型一起做出来的”。像陶哲轩这类顶级数学家,能把 AI 变成解决难题的工具,换一个不具备相同方法论和判断力的人,哪怕拿到同样的模型,也做不出同样的结果。
硅基君:这类人具备什么样的特质?
邹阳:我觉得主要有两点:第一,要知道现有AI的能力边界在哪;第二,要知道怎么把能力嵌进任务、流程和评价体系里。
这种人往往不是纯技术专家,也不是算法工程师,更不是研究型科学家,而是产业里的工程应用型人才:既懂业务结构,又理解模型能力边界,配合AI完成可交付、可复制、可持续优化的系统。
这类人现在非常少,甚至在我看来比算法工程师更稀缺。但是基于这次革命性技术的软件会越来越面向业务人员,赋能他们具备这种技术能力,让普通业务人员只要会画流程图、会结构化表达,就可以利用数字化工具给自己降本提效。
科技平权平的是普通人也可以用AI来构建数字化应用解决自己真实需求的权利。
硅基君:这会对当下的TO B生态有什么样的影响?
邹阳:我有一个暴论,未来大型企业可能不需要那么多的外部供应商了,尤其是那些靠堆人力的服务模式也会被替代。
过去企业做不了数字化,是因为找不到足够懂业务、懂软件、懂流程的人;数字化成本高、周期长、失败率还特别高,所以才需要各种外包或者服务商来帮它们“补足能力”。
但未来不一样。当企业拥有了自己的模型、自有的数据、第一手的场景,加上一两支懂得使用模型的小团队,大部分传统意义上的“外部开发能力”都会被内化。
硅基君:什么样的toB公司能活下来?
邹阳:我认为只有两类:一种是掌握行业Know-how ,另一种是有数据积累的公司。
硅基君:垂直大模型的概念逐渐被证伪了,那垂直Agent会存在吗?
邹阳:垂直大模型和垂直Agent是两码事。模型是能力,Agent 是商品。就好像一个医疗行业的专家,并不意味着他能解决医疗场景里所有具体的问题。
垂直大模型不成立是因为性价比太低,通用大模型已能解决80% 的问题。而垂直 Agent 的核心,是把行业里的碎片化规则转成可被大模型调用的指令和流程。它卖的不是模型能力,而是“最后一公里”的解决方案。
中国强调系统性落地,美国聚焦单点需求
硅基君:怎么看待中美在AI上的路线差异?
邹阳:中美的差异既有客观原因,也有主观原因。
客观原因很好理解,国内算力确实紧张。很多团队不是不想做,而是没有那么多卡。
国内一家号称发力AI的大厂,手里只有5000张卡。算力不足的直接后果,是模型无法在细节上做足够多的实验。国外是一百个方向同时跑,国内往往只能盯住十分之一。
这就决定了大模型的创业公司在国内很难干成,能做这件事的,只有大厂。
硅基君:那主观原因呢?
邹阳:中国无论是产业政策,还是企业决策都更加务实。技术能不能解决生产环境里的实际问题,是判断的第一原则。解决不了,就不会投,也不会引进;解决得了,就迅速推进。
这种态度和过去一些技术潮流形成对比:当年区块链、元宇宙、大数据都曾被大规模追捧,但真正落地的非常有限。经历过这些周期后,中国企业对“价值验证”这件事变得更敏感。
这和国外靠资本推动的逻辑完全不一样。国外可能一家三五个人的创业公司,估值几千万美元是常态。资本互相买、互相推,高估值本身就是玩法的一部分。泡沫会积累,也迟早会破一次。但从长期看,AI 的价值又确实不属于泡沫,它能在十年尺度上带来深刻的结构性变化。
硅基君:这种路线差异,会带来什么样的结果?
邹阳:美国的AI 落地更多是自下而上的,围绕商业场景里的明确问题展开。法律、财务、内容审核,这些环节清晰、边界清楚,也容易验证效果。大多数美国 AI 公司,最终还是走向具体、可快速变现的工具化产品。
中国的路径有自己的特色。国内企业把AI 放进了生产的核心环节:排产、工艺、设备运行、供应链调度。这些场景复杂、周期长,短期并不会产生可见回报,但关系到企业的底层效率,所以持续在投入。国企的参与更典型,很多项目前期投入大、见效慢,却依然愿意长期建设。
因此,我们选择的方向,是往更细更深的地方走。不是只做几个容易验证的点,而是进入真正的产业现场,去拆解、解决那些分散在千行万业里的具体问题,再把这些经验沉淀成更通用的能力体系。
只有让技术在最难、最碎、最真实的业务里接受检验,才能判断它的真正边界。未来真正改变企业运行方式的,也不会是几个亮眼的demo,而是这些深埋在流程里的突破。
本文来自微信公众号“硅基观察Pro”,作者:林白,36氪经授权发布。















