豆包的AI助手江湖

光子星球·2025年12月02日 19:12
阻碍应用突破的,有时候不是技术

电影《某种物质》里主人公伊丽莎白为了留住青春,通过注射药剂,分裂出了克隆体苏。

大模型让曾经自诩“弄潮儿”的互联网大厂,也感受到了“衰老”的恐惧。从百度、阿里到字节,他们纷纷在寻找自己的“苏”。

字节“豆包”正在以肉眼可见的速度进行分裂,从AI助手到输入法,从TWS耳机到从系统上定制智能手机。

12月第1天,字节发布了一款可体验豆包手机助手的工程样机。手机型号为中兴旗下的努比亚手机M153,硬件核心指标包括高通骁龙8至尊版芯片、16GB内存+512GB存储,售价3499元。

其中,高通骁龙8至尊版芯片搭载了新一代Hexagon NPU可高效运行端侧多模态生成式AI应用,还能支撑多模态 AI 助手实现自动语音识别、大语言模型交互等功能,为搭载豆包提供了支撑。

豆包助手落地的新“肉体”差强人意,M153机型基础配置与同期其他品牌,还有努比亚今年旗舰相比,都算不上顶配。这可能说明字节在与手机厂商合作落地豆包手机助手时,重在体验功能而非拼参数性能。

根据豆包实际视频演示能够看到,豆包手机助手提供了语音和侧边AI键两种唤醒方式,无论哪种都需要与终端厂商合作开发,只是差异在于前者替代了手机厂商自己的手机助手,而后者则是定义硬件。

在唤醒条件下,豆包手机助手直接读取屏幕内容、使用多模态理解照片、自动完成跨平台比价下单、远程控制汽车等。视频重点展现了AI助手在端侧部署中长文本、记忆、个性化的多种技术能力。

值得一提的是,演示视频中还给出了一个根据规划执行旅行中的机票、门票、餐厅预订的案例,花费8分多钟完成了整套操作。

豆包与手机厂商合作,超越了简单的Agent和Computer Use操作,更像是一次Siri式的落地探索。统一化的唤起和手机操作入口,打包式的集成操作,一个全新的AI手机助手正在被大模型软件改写。

互相克隆与排异反应

伊丽莎白为了留住青春,需要克隆体苏延续青春。在端侧 AI 竞赛中,豆包手机助手,拉开了 “互为克隆体” 的合作序幕。

为了拓展用户规模,同时也寻找最好的落地形态,豆包进行了多种尝试,包括PC端、移动端、网页端、浏览器插件,或是内嵌入生态内,如飞书。种种尝试似乎仍不能满足字节的胃口,毕竟缺乏硬件载体,容易落入“轻量级外挂” 的陷阱之中。

为此,字节在去年10月,曾推出软硬融合的Ola Friend——一款搭载了豆包的首款AI智能体耳机。不过TWS耳机的形态限制了计算与存储,使得AI蓝牙耳机必须依靠外部设备接入云端大模型,输出AI功能。而且作为附属配件,耳机薄弱的离线能力,存在离开手机即断网的问题。

从实际场景来看,AI耳机最核心的功能是利用声学信号处理与AI算法的深度融合,在语音交互层面完成从听到理解的跨越。因此,对于豆包而言,走向手机终端,寻求与硬件更深层次的融合是必经之路。

牵手手机厂商,不止能让豆包,对于所有AI助手而言都是跳出 “云端孤岛” 困境的有效手段。手机是用户保有量最大、每日交互最频繁的终端,是大模型落地的必争之地。搭载了豆包助手的AI手机,也有机会进一步激活既有的AI耳机等其他产品。

若是将华荣米OV这类手机生态完善的大厂,比作基建完善的高速公路,那么努比亚则是相对生态不够完善的普通道路。豆包选择与努比亚合作,既有现实考量,也是希望打造一个标杆级的“苏”,吸引其他厂商合作。

根据视频演示,或多或少看到豆包与努比亚手机的合作已深入到底层权限的调用,否则不可能完成OTA场景下的跨平台动作。

豆包手机助手具备端侧记忆、跨App代操作等技术,其本地加密存储的记忆功能与GUI模拟点击能力,让其从工具完成了向助理的变化。而手机厂商掌控硬件工程与底层权限,握有分配服务与变现的主导权。

换言之,豆包手机助手其实给终端厂商提供了一条类似于华为的智选车合作方案,而非直接下场做手机。

以技术主导权换硬件落地,如与努比亚协同优化端侧算力,与其说让模型适配手机,不如说是适配手机芯片。借助努比亚,豆包向基于安卓的手机厂商释放了一个相当明确的信息:生态好坏与否不重要。从生态上推进 “系统级嵌入”,通过标准化接口解决权限争议,同时以端侧数据处理,解决数据隐私问题。

同时需要看到,努比亚背后的中兴不算手机大厂,其名不见经传的小牛语音助理更容易从系统层面换做豆包AI助理。做个不恰当的比喻,豆包之于努比亚,如同汽车领域的华为之于赛力斯。豆包是努比亚的加分项,而对于其他大厂而言,则存在失去“灵魂”的焦虑。

豆包与手机厂商深度合作的挑战,或许并不是技术能力,而是商业与组织能力。

在手机大厂眼中,豆包,乃至字节都只是“第三方服务商”,而涉及到硬件适配与底层权限调用,将让事情变得复杂起来。引入豆包都将让手机厂商自研AI助理陷入尴尬的境地,这也导致手机大厂与豆包存在一定的排异反应。

谁是苏,谁是伊丽莎白?

“在AI和游戏面前,手机性能永不过剩。”

一家头部手机厂商高级副总裁此前谈及端侧AI部署时提到,手机厂商除了要保持流畅运转,还需要考虑能效、散热等性能发挥到极致。毕竟手机端侧AI部署才刚刚起步,对于如何做好底层内存占用与调用,各手机厂商都还在摸索之中。

言下之意,到底如何开展,手机厂商们还在独自摸索之中。

在谈及第三方合作时,上述表达看似开放,实则暗藏深意。“我们跟很多三方厂商都有合作,他们是非常乐意去成就这件事情,甚至有很多服务厂商主动找我们,我们一直推动的生态都是希望是双方共赢的。”

一年时间下来,几乎所有手机厂商现有的AI应用并没有结构性变化,而无法像豆包与努比亚一样,真正让AI助手来“完成动作”。

OPPO是几家厂商中步子迈得最大的一家。此前收购波形智能,且一并吸纳了核心高管CEO姜昱辰、COO余腾、CTO周王春澍,除了迅速建立起文本处理能力,或多或少也看到了后者鼓吹的LPA(Life-long Personalized AI,长期个性化AI),在个性化服务上的前景。

尽管不少手机厂商在去年和今年,都曾用自研的AI助手点一杯咖啡,这背后其实源于工程化。在豆包手机助手演示视频的最后一部分可以看到,其在复杂的出国场景下,如何根据用户个性化需求,完成跨平台的复杂动作。

在社交媒体收藏巴黎餐厅,并在地图软件上标记。基于记忆数据,豆包根据需求,在行程中插入了奥赛美术馆的梵高展。最后再到OTA平台,完成了订票动作。

另一个更现实的问题是,荣米OV都有一支规模庞大的AI手机助手开发团队,与豆包的合作都将改变其在内部的位置。

大模型时代,到底是硬件定义软件,还是软件定义硬件,关于这个问题至今众说纷纭。

但在去年大模型公司和硬件厂商达成的默契是,“双方一定要合作”,即针对端侧模型在硬件基础上,进行一体式的优化。苹果和OpenAI拿出了一个范本,涉及隐私部分调取在本地,算力推理部分在云端。

既非端侧大模型,也不是纯硬件,字节靠豆包AI助手走出了第三条路。这条路以“AI顶流”豆包这款产品为背书,通过以“类Siri”的模式部署到手机端,以此来带动合作方手机和字节旗下耳机的销量。

什么是“类Siri”的模式?豆包AI助手在手机端承担着唤起所有功能的管家角色,这不同于此前大火的Computer Use功能,因为Computer Use更侧重于让大模型直接操控操作系统或应用程序,实现“所见即控”的自动化任务执行。

豆包的“类Siri”模式本质上是AI助手的生态化延伸,它并不追求直接介入系统底层操控,而是作为用户与手机功能、内容服务、物联网设备之间的智能调度中枢。

字节的第三条路,本质上是以软件体验为杠杆,撬动硬件市场的增量需求。当用户因豆包的便捷交互而选择特定手机或耳机时,模型的价值已不再局限于技术本身,而是成为了消费决策的关键变量。接下来,这有可能成为新的趋势,软件与硬件的边界正在从“谁定义谁”转向“共同进化”。

入口再定义

“豆包AI助手”所隐喻的内涵,正在被字节悄悄放大。

在我们的既有印象中,豆包是一款AI应用,而不是Siri。今年是AI to C大年,各类面向C端的AI助手层出不穷,形态各异。产品多以两种方式出现,一种是灵光、千问此类的独立应用;另一种是元宝,嵌入微信生态之内的轻量化路径。

蚂蚁灵光团队在回顾产品诞生历程中提到一点观察,“沿着提高信息传递效率的产品主轴探索,我们发现模型写代码、调动各种工具,确实到了一个不仅能够降本增效,还具备生成用户消费级内容的临界点”。

豆包作为一款AI应用,深受字节产品逻辑影响。一个细节是,为了成为一款低门槛的通用助手,豆包从一开始就把语音视为一种重要的输入方式,到几乎成为所有尝试中雷打不动的功能。我们观察到,语音的逻辑再次复用到了豆包输入法上。对比微信输入法,豆包把语音输入放置在了显眼的位置。

某大厂AI应用团队告诉我们,现在的AI产品各有主张,比如豆包的语音打电话功能、DeepSeek的推理功能,这导致新产品问世只能在豆包以外的侧面生存。

同样是投流之战,Kimi打的是知名度和资本市场估值,字节则将其视为大型A、B测试训练场。哪些功能属于高频,哪些属于技术刚需,用Token调取量一对比一目了然。

QuestMobile数据显示,2025年10月,AI原生应用中,豆包最高,DAU为5410万。DAU大战落下帷幕,随着豆包功能的向外延展,Kimi、MiniMax等产品离一款通用AI助手的标准越来越远,转而走向了更聚焦的垂直Agent。

然而,这场战事似乎尚未结束,在最近有了新的名字——“入口之争”。阿里的千问是新发起者,就在上周刚完成了与夸克应用、浏览器,以及智能眼镜的深度融合。

眼下,字节转身杀了个回马枪,直指手机厂商腹地,提出了另一种“入口”形态。

如果说千问整合的是阿里生态入口,那么字节想以豆包打通的则是,除了苹果、鸿蒙封闭生态外的手机厂商入口。此前,诸如面壁智能、阶跃星辰一些大模型创业公司也有一些尝试,但囿于自身资源,无法跟手机厂商完成深度绑定。

豆包手机助手仅是字节降落端侧的“先头兵”,其背后是豆包为统一品牌下的大模型技术能力、产品能力和用户场景洞察能力。字节的野心可能是让豆包成为手机厂商的标准化Siri,实现“所见即可问,所言即可为”。

在短期内或许会遇到挑战。一方面受限于大模型技术的不确定性,演示场景无法保证百分百复现,实际可用性与预期仍有差距;另一方面,豆包AI助手想要成为“灵魂”,需要与不同厂商的操作系统进行更深度的、定制化的整合,这将需要时间和工程投入。

更长远来看,如何处理好与安卓手机厂商之间,既合作又博弈的复杂生态关系变得尤为重要。

字节“不造手机,却想定义手机灵魂”的战略,正将这场入口之争推向一个更微妙,也更关键的阶段。互联网巨头与终端厂商在这场AI重构一切的变革面前,都会思考“You are one”。

这句来自《某种物质》的隐喻,既兜售着软硬一体的本源,也暗藏着无可避免的矛盾。

本文来自微信公众号“guangzi0088”(ID:TMTweb),作者:郝鑫 吴先之,编辑:王潘,36氪经授权发布。

+1
1

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000
特邀作者

细微之处,看见未来

下一篇

开的店越多,越想增加坪效

28分钟前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业