入口在手,Token我有,豆包千问卡位Agent“开机键”
“工具在使用者手中时才成为工具。”海德格尔的这段话,今天用来理解AI硬件同样贴切。
问题在于,大模型这只“手”伸出来的时候,用户究竟愿意把它握在掌心里(手机),还是架在鼻梁上(眼镜),亦或是让它一直贴耳倾听(耳机)?
据《Z Finance》独家报道,字节跳动内部决定暂停豆包AI眼镜项目。想要理解这场选择,需要先回答一个更基础的问题:大模型公司为什么要做硬件?
据《晚点LatePost》的报道,火山引擎豆包大模型日均调用量已超过120万亿Token,半年增长4倍。国家数据局的数据显示,中国日均Token消耗量在一年半内增长约300倍。黄仁勋在GTC 2026的舞台上说,Token将是未来数字世界最核心的大宗商品。
但Token消耗的暴涨,反而掩盖了一个更根本的问题,即这些Token从哪里被触发,通过什么界面进入用户的生活?
过去两年,这个问题的答案是手机屏幕和对话框。OpenClaw的爆火将Agent从开发者工具推向大众用户,直接推高了对“随时随地触发AI执行”这一能力的需求密度。当大模型的竞争从生成式问答转向执行任务,执行链路就需要一个更靠近用户身体的物理锚点。
豆包选择的落点是操作系统,以“操作系统级合作”模式切入AI手机赛道,通过与手机厂商在系统层面合作,获得识别屏幕UI元素、模拟人工操作的核心权限;千问选择的是眼镜,千问AI眼镜上线首批“AI办事”能力后,支持话费充值、扫码骑车、停车缴费、语音点外卖。这些功能的共同特征是,AI开始在真实世界里把事情做完。
两条路径的本质,是两家公司对同一个问题给出的不同工程答案:究竟改由谁来做Agent执行链路的物理接口。
两种优势的两种延伸
大模型公司做硬件,实际上是在回答一个从Token经济学中衍生出来的问题。
过去两年的AI竞争,核心战场在模型能力和价格。价格战把Token单价从三年前的高点压低了约300倍。但单价的崩塌没有让AI支出变得可预测,原因很简单:Agent类应用让单次任务的Token消耗从普通对话的几十倍起跳。据腾讯科技报道,亚太区电商技术公司Branch8的6人团队,启用Claude Code第一个月花了2400美元,经过八周密集优化才勉强降到680美元。Token支出管理本身已经变成了一项需要专门技能的工作。
这个成本结构,在源头上改写了很多AI产品的竞争逻辑。谁掌握了Agent的触发入口,谁就掌握了Token消耗的源头。而触发入口的密度,取决于设备离用户有多近、启动摩擦力有多低。这是豆包和千问同时转向硬件的真实驱动力:在Token消耗链路的最前端建立一个物理节点。
千问AI眼镜的团队跟踪了一个指标——用户交互轮次,即AI帮助用户完成事项的频率。夸克眼镜S1上线后,用户交互数对比第三方手机AI助手应用提升了约6倍。戴在脸上的AI之所以被调用得更频繁,原因在于感知始终在线、启动摩擦力趋近于零。
对于Agent而言,这种持续在场的交互密度,意味着更丰富的上下文积累,也意味着更多执行任务的触发机会。
2026年4月,千问AI眼镜首次OTA升级后上线了“AI办事”能力,通过接入淘宝闪购、支付宝,支持话费充值、扫码骑车、停车缴费、语音点外卖。产品定义由此发生转移:AI从回答问题,变成了把事情办完。
豆包确定的路径同样深入,只是方向不同。去年12月,豆包AI手机助手以“操作系统级合作”模式进入AI手机赛道,通过与手机厂商在系统层面合作,获得识别屏幕UI元素、模拟人工操作的核心权限。
实测显示,“比价肯德基套餐并下单发送截图”这一涉及三个应用、十二步手动操作的任务,豆包可在后台自动完成,仅支付环节需人工介入,全程耗时较人工操作缩短72%。
目前,Agent在大众用户中真正形成使用习惯还需要一段时间。豆包和千问现在的硬件投入,是在为一个尚未到来的需求峰值提前卡位。这是典型的平台逻辑:先占住感知节点,等Agent成熟之后,数据流和调用量自然会从这个节点涌入。
但平台逻辑有一个前提,设备必须在需求到来之前就已经在用户身上。这也解释了为什么千问要在眼镜之外再布局指环和耳机,毕竟单一形态覆盖不了全天候的感知需求,矩阵才能。
豆包与千问的硬件路径,都是从自身核心优势出发延伸的结果,只是各自优势所对应的最优形态不同。
豆包AI眼镜的项目暂停,内部给出的核心判断也很合理,大框、拍摄、语音、翻译,主流范式已被Ray-Ban Meta统一。2025年,Meta智能眼镜全年销量超过700万副,全球市场份额达85.2%。在这个格局下,“能不能做”早已不是问题。
千问的选择,出发点同样清晰。阿里的应用生态中,话费充值、外卖点单、停车缴费,这些淘宝、支付宝的既有能力可以直接接入Agent执行链路,通过眼镜重新封装成AI原生交互形态。对于没有这套生态底座的公司,眼镜只是一个戴在脸上的语音助手;对阿里来说,眼镜是打通已有应用、建立新型触点的现实节点。
豆包深入手机操作系统,是在自己的流量分发能力地带建立Agent入口。千问押注可穿戴设备矩阵,是在把阿里的应用生态重新封装成AI原生交互形态。
把时间线拉长来看,今天产品发得多惊艳、销量跑得多猛,其实都决定不了终局。两年后,当Agent像网络一样融进工作流,唯一的护城河只有一条:用户习惯了从哪个入口触发它。
端侧推理如何改变成本结构
硬件入口的竞争,最终会回到一个更基础的问题上:Token从哪里来,到哪里去,谁来付账。
Token的价格是透明的,但Token里装了多少“智力”,用户无从得知。4月,AMD AI战略总监Stella Laurenzo基于6852个Claude Code会话的分析显示,从今年2月下旬开始,Claude Opus 4.6的推理深度大幅下降,腾讯科技也报道,“每次代码编辑前的文件阅读次数”从6.6骤降至2.0,降幅约70%。
这些改变没有在任何显著位置通知用户,大量开发者是在代码质量明显下降之后才开始怀疑“模型是不是变笨了”。
更隐蔽的是缓存命中率对实际成本的影响。一位开发者对Claude Code一周数据的追踪显示,正常情况下91%的Token来自缓存命中,缓存命中价格只有标准输入价格的十分之一。如果缓存全部失效,Input成本会暴涨到原来的5.7倍。
这个成本结构,是端侧模型价值主张的核心依据之一。端侧推理一次性部署后,边际成本趋近于零,没有缓存命中率的不确定性,也没有云端峰值定价的波动。对于频繁触发Agent任务的硬件设备,这个优势会随使用密度的增加而持续放大。
谷歌DeepMind 4月发布的Gemma 4,重新划定了端侧模型的能力边界。其E2B和E4B模型推理时激活的有效参数量分别仅为20亿和40亿,在LiteRT-LM框架下,可在3秒内处理跨越两个独立技能的4000个输入Token;E2B与E4B原生支持函数调用,覆盖Agent工作流所需的核心推理路径。上下文窗口达128K Token,在不足1.5GB的内存占用下可以完成运行。
这意味着一个可以调用外部工具、执行多步骤规划的端侧Agent,其硬件门槛已降至现代中端手机的内存余量之内。
千问目前采用的云端大模型加本地轻量智能体的混合架构,是在当前端侧算力约束下的一个不错的解。据36氪报道,千问在2026年规划的硬件形态除AI眼镜还包括AI指环、AI耳机,三种形态覆盖视觉交互、无感佩戴和音频交互三个不同维度,形成全天候的感知矩阵。
这个矩阵的核心价值在于眼镜捕获第一视角的行为数据流,这些数据反哺千问大模型迭代,模型能力提升后又优化硬件体验,形成闭环。
但Gemma 4这类模型的出现,正在缩短这个“当前”的有效期。当端侧模型可以在本地独立完成越来越多的Agent任务,云端兜底的必要性在高频轻量场景中会持续下降,Token的消耗路径也会随之改变。
这会对当前AI硬件的主流云端模式,其一,端侧能力的提升会降低硬件设备对云端的依赖,让设备端AI从成本结构上更具竞争力;其二,当用户的Agent任务越来越多地在本地完成,依赖数据回流云端来驱动模型迭代的商业闭环,也需要重新设计数据获取路径。
有多少增量留在云端、有多少转移至本地,将成为整个MaaS商业模式需要提前应对的结构性问题。
写在最后
当Token消耗从对话层迁移到执行层,Agent开始代替人操作应用,这些任务是在云端计费还是在端侧本地完成?这个问题的答案,会决定Token的消耗结构,进而影响MaaS业务的收入模型。
火山引擎超百亿元的MaaS业务收入目标已随着Seed 2.0、Seedance 2.0等模型发布、OpenClaw爆火上调被提高。阿里成立了ATH事业群,两家公司在云端的Token战争和在硬件端的入口争夺,是同一场竞争的两个战场。谁能在硬件侧建立足够高频的Agent使用习惯,谁就在云端MaaS的下一轮增长中占据了需求端的主动权。
2026年的AI硬件竞争,表面上看是眼镜和手机的形态之争,实质上是对Agent时代Token消耗入口的提前卡位。这场竞争没有快速的结论,因为Agent在大众用户中的真实使用习惯还在形成,端侧模型的能力边界还在被Gemma 4这类模型持续推进,云端Token的成本结构还在被缓存命中率、推理深度和定价策略悄悄改变。
《新立场》认为,决定胜负的是谁拥有足够密度和足够高频的应用场景,能让Agent在真实使用中持续积累上下文、优化执行能力,形成对用户的理解深度。
这个变量,更多由生态底座决定。千问和豆包的硬件分歧,是两个不同生态底座在同一个技术拐点上做出的不同押注,各自都在最擅长的地方寻找答案。
本文来自微信公众号“新立场Pro”,作者:新立场,36氪经授权发布。















