当前位置：首页 > 新闻 > 正文

豆包“包圆”互联网

新闻
2025-12-20
3
更新：2025-12-20 11:18:50

豆包手机上市仅半个多月，字节跳动便迅速推出了通用智能体模型豆包1.8。这款多模态大模型具备在真实环境中“执行任务”的能力。豆包1.8能够直接操控用户的手机、电脑及浏览器。它可以识别屏幕上的按钮与界面元素，并模拟人类进行点击、滑动等操作，协助完成各类日常任务。这无疑是字节一次极具魄力的探索。就在12月1日，字节刚刚发布了豆包手机。而通用智能体模型的问世，使得豆包的能力版图从移动端迅速扩展至PC领域。结合已有的智能硬件布局以及未来可期的智能座舱应用，豆包几乎覆盖了互联网的所有关键入口。此前，因豆包手机的推出，字节已被视为移动互联网生态的挑战者，微信、淘宝等头部应用已明确拒绝其调用。如今，随着豆包1.8的发布，字节面临的竞争压力预计将进一步加剧。 **A** 首先通过评分来直观了解豆包1.8作为智能体的能力水平。在多模态理解方面，豆包1.8展现出强劲竞争力。该模型能处理图像与视频内容，单次视频理解帧数从上代的640帧提升至1280帧。这一提升不仅体现在参数上，更在实际应用中发挥作用：模型能以低帧率解析长视频整体内容，并在遇到关键片段时调用工具进行高帧率精细分析。例如在官方演示中，豆包1.8便成功分析了一段篮球比赛视频，并最终提炼出整场比赛的核心内容。在公开基准测试中，豆包1.8在ZeroBench主集上获得11.0分，超越Gemini-3-Pro的10.0分，位列行业第一。ZeroBench是极限视觉推理评测的核心部分，分数越高，表明模型理解复杂视频内容的能力越强。在视觉推理任务上，该模型于MathVista得87.7分，MathVision得81.3分，LogicVista得78.3分，整体略低于Gemini-3-Pro，但仍稳居第一梯队。视频理解方面，模型在VideoHolmes测试中获65.5分，EgoTempo获67.0分，MotionBench获70.6分，在长视频与流式视频处理上同样保持竞争优势。 **尤为关键的是其智能体能力。** 豆包1.8能够执行代码、操作图形界面、调用多种工具，从而完成多步骤的复杂任务。在BrowserComp-en搜索任务基准测试中，模型得分为67.6，在智能编程与经济价值相关测试中也表现稳健。字节在技术报告中提到，模型通过统一的智能体接口，支持搜索、代码执行与图形界面交互三种核心交互方式。在基础能力层面，豆包1.8在数学推理、代码生成、复杂指令遵循、知识覆盖等维度均保持主流水平。其在AIME-25测试中得分94.3，BeyondAIME得分77.0，AMO-Bench得分60.0，LiveCodeBench得分79.5。这些数据表明，豆包1.8的底层能力扎实，字节并未因追求智能体功能而忽视基础建设。字节还专门构建了内部评测体系，覆盖教育、客服问答、复杂工作流等高价值场景。在教育场景测试中，豆包1.8获得60.8分，在客服问答中获得69.0分，均为参评模型中的最高分。这一结果验证了模型在实际业务场景中的有效性。豆包1.8提供了四种思考模式：无思考、低思考、中思考、高思考。这一设计旨在平衡响应延迟、计算成本与解决方案质量之间的关系。用户可根据任务复杂程度选择不同模式，在需要快速响应的场景使用低算力模式，处理复杂任务时则切换至高算力模式。此外，豆包1.8在视觉编码上进行了优化，降低了图像与视频输入的token消耗。在长上下文处理方面，模型支持256K的上下文长度，并提供了原生API级别的上下文管理能力。简而言之，字节已为豆包1.8规划了明确的应用场景，并在部署优化上做了前瞻性布局。 **B** 值得注意的是，豆包1.8的能力并不局限于手机助手，其在浏览器与PC端同样可用。这意味着，字节正试图通过AI技术全面覆盖互联网生态。近年来，浏览器市场的变化十分显著。传统浏览器如谷歌Chrome和微软Edge，均已融入AI功能。同时，也涌现出许多基于大模型的AI浏览器。例如，OpenAI于2025年10月推出的Atlas，本质上是Chrome与ChatGPT的结合，将对话助手嵌入传统浏览器。而Google Labs的实验项目Disco，则具备名为GenTabs的机制，可将用户浏览的标签页直接生成可交互的Web应用。 AI浏览器市场前景广阔。据Market.us数据，2024年全球AI浏览器市场规模约为45亿美元，预计到2034年将增长至768亿美元，年复合增长率达32.8%。 **然而，豆包1.8能为设备带来更具想象力的体验。** 其云端架构支持跨设备协同操作。理论上，用户可以在手机上向豆包1.8发出指令，由电脑端的浏览器代为执行。例如，当用户在手机上浏览抖音并对某内容感兴趣，希望切换到大屏观看时，只需向豆包1.8发出“在网页上打开此页面”的指令，电脑浏览器便会自动打开手机上的视频。 **这种跨平台能力是传统浏览器AI化难以实现的，也是Atlas、Disco等独立浏览器产品目前尚未具备的。** 实际上，字节也在借鉴微软的思路。微软曾在Ignite 2025大会上宣布，Windows正在演变为“AI智能体操作系统”。但两者的路径有所不同。微软需要从底层改造Windows系统架构，将智能体能力深度集成至内核与API层面。而豆包1.8的路径更为轻量，它作为一个系统外部的“代行者”，如同外骨骼般简化用户操作。为实现这一目标，首要任务是提升对文字与图表的理解能力。豆包1.8在此领域进行了专门优化。它不仅能阅读文字，还能理解复杂的学术图表、数据可视化图形以及技术文档中的示意图。在处理包含大量公式、图表和专业符号的学术论文时，模型能够提取关键信息、解读图表含义，并建立文字与图示之间的关联。此外，PC端的任务通常比移动端更为复杂。为此，豆包1.8在复杂推理任务中引入了并行思考机制。通过分配额外的计算资源，它可以同时探索多种解决方案路径，评估各方案的可行性，最终选择最优解。实际应用测试显示，豆包能够处理综合性规划任务。在旅行规划场景中，它可以同时处理多模态信息，从地图、图片、文字描述中收集数据，并综合考虑预算、时间、偏好等约束条件，生成详细可行的行程安排。 **C** 字节意图做大AI市场的蛋糕，但豆包手机已使其成为众矢之的。继续升级智能体能力，无疑会招致更多竞争对手的警惕。当前互联网行业的商业逻辑在于：用户在应用中停留时间越长，观看广告越多，平台收益就越高。应用开发商投入大量资源优化界面、设计转化路径、提升用户黏性，目的就是让用户尽可能多地接触商业化内容。在此逻辑下，应用是流量的闸口，掌控应用即掌控用户。智能体模型的出现，对这一逻辑构成了颠覆。在字节的演示中，豆包1.8能够调用十余种工具，完成电商平台的全网比价与下单操作。用户无需打开淘宝、京东或拼多多，也无需在不同应用间切换，只需告诉模型“购买性价比最高的某产品”，智能体便会自动完成搜索、比价、筛选与下单。整个过程，用户完全无需接触应用界面，自然也看不到任何广告。实测表明，豆包1.8可通过playwright MCP工具，按照指令在淘宝筛选500-1000元价格区间内销量第一的半入耳式蓝牙耳机，随后前往唯品会、京东进行比价并完成加购。 **此能力对用户而言是效率的飞跃，但对应用开发商则构成潜在威胁。** 广告展示失去了核心场景，原有的流量价值被大幅压缩。更关键的是，用户对应用的认知可能发生转变。过去，用户的认知是“购物用淘宝，打车用滴滴”；而现在，则可能转变为“向智能体说明需求，由其决定使用何种服务”。应用从流量的闸口，转变为智能体可选的工具之一，互联网的主导权正从应用层向模型层转移。豆包手机遭遇的封禁与限制，本质上是应用开发商的防御性反应。但这种防御能持续多久，取决于用户的选择。然而，规则终究由人制定。若有足够多的用户认为智能体的使用体验显著优于传统应用操作，应用开发商将不得不调整策略。开发商可能开放API接口以便智能体更好地调用，也可能在智能体调用时保留部分广告展示，或是转变商业模式，从流量变现转向服务收费。 **况且，AI智能体领域的参与者正日益增多。** 12月9日，智谱AI宣布开源其核心AI智能体模型AutoGLM。其能力与豆包手机助手类似，能够稳定完成外卖点单、机票预订等长达数十步的复杂操作流程，并已支持微信、淘宝、抖音、美团等超过50个高频中文应用。智谱开源的AutoGLM-Phone-9B仅需36GB存储空间，即可完全在手机本地运行。且其采用MIT和Apache-2.0双许可证开源，意味着任何人都可免费下载并用于商业用途。在移动互联网时代，谷歌凭借开源的Android系统构建了庞大生态；智谱显然希望能在AI操作系统时代复制这一路径。从豆包与智谱的技术实现来看，该领域的核心壁垒与大模型领域相似，腾讯、阿里等互联网大厂均握有入场券。但从行业竞争角度看，能让智能体与现有APP生态和谐共存的玩家，才可能占据优势。字节既拥有模型能力，也具备应用生态。抖音、今日头条等产品本身即是流量高地，字节可先在自身应用中测试智能体能力，积累经验后再向外拓展。此外，字节的云端架构支持快速迭代。豆包手机上市半月便推出多次更新，这种迭代速度是传统硬件厂商难以企及的。无可否认，豆包1.8是字节的一次探索性尝试。它展示了一种未来可能性，但距离成熟的产品形态仍有距离。其最终能走多远，将取决于字节在技术突破、生态构建与商业模式创新上能取得多少实质进展。

豆包“包圆”互联网

上一篇：锋龙股份[002931]关于筹划控制权变更暨继续停牌的公告

下一篇：广哈通信：向特定对象发行股票申请获深交所审核通过

有话要说...

新闻