当前位置:首页 > 新闻 > 正文

豆包“包圆”互联网

  • 新闻
  • 2025-12-20
  • 3
  • 更新:2025-12-20 11:18:50
豆包手机上市仅半个多月,字节跳动便迅速推出了通用智能体模型豆包1.8。这款多模态大模型具备在真实环境中“执行任务”的能力。 豆包1.8能够直接操控用户的手机、电脑及浏览器。它可以识别屏幕上的按钮与界面元素,并模拟人类进行点击、滑动等操作,协助完成各类日常任务。 这无疑是字节一次极具魄力的探索。就在12月1日,字节刚刚发布了豆包手机。而通用智能体模型的问世,使得豆包的能力版图从移动端迅速扩展至PC领域。结合已有的智能硬件布局以及未来可期的智能座舱应用,豆包几乎覆盖了互联网的所有关键入口。 此前,因豆包手机的推出,字节已被视为移动互联网生态的挑战者,微信、淘宝等头部应用已明确拒绝其调用。如今,随着豆包1.8的发布,字节面临的竞争压力预计将进一步加剧。 **A** 首先通过评分来直观了解豆包1.8作为智能体的能力水平。 在多模态理解方面,豆包1.8展现出强劲竞争力。该模型能处理图像与视频内容,单次视频理解帧数从上代的640帧提升至1280帧。这一提升不仅体现在参数上,更在实际应用中发挥作用:模型能以低帧率解析长视频整体内容,并在遇到关键片段时调用工具进行高帧率精细分析。 例如在官方演示中,豆包1.8便成功分析了一段篮球比赛视频,并最终提炼出整场比赛的核心内容。 在公开基准测试中,豆包1.8在ZeroBench主集上获得11.0分,超越Gemini-3-Pro的10.0分,位列行业第一。ZeroBench是极限视觉推理评测的核心部分,分数越高,表明模型理解复杂视频内容的能力越强。 在视觉推理任务上,该模型于MathVista得87.7分,MathVision得81.3分,LogicVista得78.3分,整体略低于Gemini-3-Pro,但仍稳居第一梯队。 视频理解方面,模型在VideoHolmes测试中获65.5分,EgoTempo获67.0分,MotionBench获70.6分,在长视频与流式视频处理上同样保持竞争优势。 **尤为关键的是其智能体能力。** 豆包1.8能够执行代码、操作图形界面、调用多种工具,从而完成多步骤的复杂任务。在BrowserComp-en搜索任务基准测试中,模型得分为67.6,在智能编程与经济价值相关测试中也表现稳健。 字节在技术报告中提到,模型通过统一的智能体接口,支持搜索、代码执行与图形界面交互三种核心交互方式。 在基础能力层面,豆包1.8在数学推理、代码生成、复杂指令遵循、知识覆盖等维度均保持主流水平。其在AIME-25测试中得分94.3,BeyondAIME得分77.0,AMO-Bench得分60.0,LiveCodeBench得分79.5。 这些数据表明,豆包1.8的底层能力扎实,字节并未因追求智能体功能而忽视基础建设。 字节还专门构建了内部评测体系,覆盖教育、客服问答、复杂工作流等高价值场景。 在教育场景测试中,豆包1.8获得60.8分,在客服问答中获得69.0分,均为参评模型中的最高分。这一结果验证了模型在实际业务场景中的有效性。 豆包1.8提供了四种思考模式:无思考、低思考、中思考、高思考。 这一设计旨在平衡响应延迟、计算成本与解决方案质量之间的关系。用户可根据任务复杂程度选择不同模式,在需要快速响应的场景使用低算力模式,处理复杂任务时则切换至高算力模式。 此外,豆包1.8在视觉编码上进行了优化,降低了图像与视频输入的token消耗。在长上下文处理方面,模型支持256K的上下文长度,并提供了原生API级别的上下文管理能力。 简而言之,字节已为豆包1.8规划了明确的应用场景,并在部署优化上做了前瞻性布局。 **B** 值得注意的是,豆包1.8的能力并不局限于手机助手,其在浏览器与PC端同样可用。这意味着,字节正试图通过AI技术全面覆盖互联网生态。 近年来,浏览器市场的变化十分显著。传统浏览器如谷歌Chrome和微软Edge,均已融入AI功能。同时,也涌现出许多基于大模型的AI浏览器。 例如,OpenAI于2025年10月推出的Atlas,本质上是Chrome与ChatGPT的结合,将对话助手嵌入传统浏览器。而Google Labs的实验项目Disco,则具备名为GenTabs的机制,可将用户浏览的标签页直接生成可交互的Web应用。 AI浏览器市场前景广阔。据Market.us数据,2024年全球AI浏览器市场规模约为45亿美元,预计到2034年将增长至768亿美元,年复合增长率达32.8%。 **然而,豆包1.8能为设备带来更具想象力的体验。** 其云端架构支持跨设备协同操作。理论上,用户可以在手机上向豆包1.8发出指令,由电脑端的浏览器代为执行。 例如,当用户在手机上浏览抖音并对某内容感兴趣,希望切换到大屏观看时,只需向豆包1.8发出“在网页上打开此页面”的指令,电脑浏览器便会自动打开手机上的视频。 **这种跨平台能力是传统浏览器AI化难以实现的,也是Atlas、Disco等独立浏览器产品目前尚未具备的。** 实际上,字节也在借鉴微软的思路。微软曾在Ignite 2025大会上宣布,Windows正在演变为“AI智能体操作系统”。 但两者的路径有所不同。 微软需要从底层改造Windows系统架构,将智能体能力深度集成至内核与API层面。而豆包1.8的路径更为轻量,它作为一个系统外部的“代行者”,如同外骨骼般简化用户操作。 为实现这一目标,首要任务是提升对文字与图表的理解能力。豆包1.8在此领域进行了专门优化。 它不仅能阅读文字,还能理解复杂的学术图表、数据可视化图形以及技术文档中的示意图。在处理包含大量公式、图表和专业符号的学术论文时,模型能够提取关键信息、解读图表含义,并建立文字与图示之间的关联。 此外,PC端的任务通常比移动端更为复杂。为此,豆包1.8在复杂推理任务中引入了并行思考机制。通过分配额外的计算资源,它可以同时探索多种解决方案路径,评估各方案的可行性,最终选择最优解。 实际应用测试显示,豆包能够处理综合性规划任务。在旅行规划场景中,它可以同时处理多模态信息,从地图、图片、文字描述中收集数据,并综合考虑预算、时间、偏好等约束条件,生成详细可行的行程安排。 **C** 字节意图做大AI市场的蛋糕,但豆包手机已使其成为众矢之的。继续升级智能体能力,无疑会招致更多竞争对手的警惕。 当前互联网行业的商业逻辑在于:用户在应用中停留时间越长,观看广告越多,平台收益就越高。应用开发商投入大量资源优化界面、设计转化路径、提升用户黏性,目的就是让用户尽可能多地接触商业化内容。在此逻辑下,应用是流量的闸口,掌控应用即掌控用户。 智能体模型的出现,对这一逻辑构成了颠覆。在字节的演示中,豆包1.8能够调用十余种工具,完成电商平台的全网比价与下单操作。 用户无需打开淘宝、京东或拼多多,也无需在不同应用间切换,只需告诉模型“购买性价比最高的某产品”,智能体便会自动完成搜索、比价、筛选与下单。整个过程,用户完全无需接触应用界面,自然也看不到任何广告。 实测表明,豆包1.8可通过playwright MCP工具,按照指令在淘宝筛选500-1000元价格区间内销量第一的半入耳式蓝牙耳机,随后前往唯品会、京东进行比价并完成加购。 **此能力对用户而言是效率的飞跃,但对应用开发商则构成潜在威胁。** 广告展示失去了核心场景,原有的流量价值被大幅压缩。更关键的是,用户对应用的认知可能发生转变。 过去,用户的认知是“购物用淘宝,打车用滴滴”;而现在,则可能转变为“向智能体说明需求,由其决定使用何种服务”。应用从流量的闸口,转变为智能体可选的工具之一,互联网的主导权正从应用层向模型层转移。 豆包手机遭遇的封禁与限制,本质上是应用开发商的防御性反应。但这种防御能持续多久,取决于用户的选择。 然而,规则终究由人制定。若有足够多的用户认为智能体的使用体验显著优于传统应用操作,应用开发商将不得不调整策略。 开发商可能开放API接口以便智能体更好地调用,也可能在智能体调用时保留部分广告展示,或是转变商业模式,从流量变现转向服务收费。 **况且,AI智能体领域的参与者正日益增多。** 12月9日,智谱AI宣布开源其核心AI智能体模型AutoGLM。其能力与豆包手机助手类似,能够稳定完成外卖点单、机票预订等长达数十步的复杂操作流程,并已支持微信、淘宝、抖音、美团等超过50个高频中文应用。 智谱开源的AutoGLM-Phone-9B仅需36GB存储空间,即可完全在手机本地运行。且其采用MIT和Apache-2.0双许可证开源,意味着任何人都可免费下载并用于商业用途。 在移动互联网时代,谷歌凭借开源的Android系统构建了庞大生态;智谱显然希望能在AI操作系统时代复制这一路径。 从豆包与智谱的技术实现来看,该领域的核心壁垒与大模型领域相似,腾讯、阿里等互联网大厂均握有入场券。 但从行业竞争角度看,能让智能体与现有APP生态和谐共存的玩家,才可能占据优势。 字节既拥有模型能力,也具备应用生态。抖音、今日头条等产品本身即是流量高地,字节可先在自身应用中测试智能体能力,积累经验后再向外拓展。 此外,字节的云端架构支持快速迭代。豆包手机上市半月便推出多次更新,这种迭代速度是传统硬件厂商难以企及的。 无可否认,豆包1.8是字节的一次探索性尝试。 它展示了一种未来可能性,但距离成熟的产品形态仍有距离。其最终能走多远,将取决于字节在技术突破、生态构建与商业模式创新上能取得多少实质进展。

有话要说...