量子位
搜索文档
全球功能最全的视频生成模型来了
量子位· 2025-12-17 18:00
公司产品发布 - 阿里发布了新一代通义万相2.6系列模型,该模型一次性覆盖文生视频、图生视频、参考生视频、图像生成和文生图,是目前全球功能最全的视频生成模型 [1] - 该模型在视频创作上推出了Sora2目前还没有的多音频驱动生视频能力,并同步引入了音画同步、多镜头叙事等能力 [2] 视频生成核心能力升级 - **视频参考生成**:支持视频参考,模型能提取其中主体的外观与音色,并结合提示词生成新视频内容,可用于单人表演或双人合拍等场景 [12] - **多镜头叙事**:支持多镜头生成,保持镜头间关键信息一致,可通过简单提示词完成分镜 [12] - **自然声画同步**:在多人对话等复杂场景中,语音与动作匹配更稳定 [12] - **长视频生成**:单条视频最长15秒(参考生视频最长10秒) [12] - **基础能力提升**:在指令理解与执行、画面真实度及整体美学表现等方面均有加强 [12] 视频生成能力实测表现 - **视频参考生成效果**:在主体一致性和提示词理解上做得比较扎实,能实现1:1还原,口型匹配较为准确,动作、表情与台词语义能够对应,但生成结果中的声线并未完全沿用原视频 [11] - **声画同步效果**:在双人剧情对话等复杂场景中,动作与语言能形成完整互动,模型能补全台词并添加与动作匹配的拟声细节,能区分不同角色的情感变化,但在多角色台词绑定上仍有提升空间,偶尔会出现角色说错台词或字幕语音未完全对齐的情况 [13] - **画面质感与美学**:在画面质感和美学呈现方面有提升,能准确呈现如“第一人称赛博城市飞行视角”等复杂提示词,生成具有电影级画面质感、节奏紧凑、科幻感强烈的视频 [13][14] - **多镜头叙事效果**:对多镜头叙事的理解较为到位,镜头中的主要动作和转场均能得到完整呈现,镜头衔接自然,但对于提示词中描述不够充分的抽象动作(如“探头观察”)仍存在理解难度 [15][17][18] 图像生成能力升级 - 图片生成功能在美学理解、人像生成、文字处理、历史文化及知识IP语义理解上带来新升级 [18] - **风格化能力**:能及时掌握并生成新的美学风格,如生成具有高饱和色块拼接、像素风处理的“星露谷风格”插画 [19][20][22] - **人像生成能力**:在人像光影方面的处理更好,能生成具有清晰明暗分区、面部结构立体、肤质细节自然、具有电影感和空间层次感的半身人像 [22][24] - **中英文处理与排版能力**:能生成中英文对照排版的美食宣传海报,在构图排版上判断靠谱,主体突出,文字层级分明,达到成品水准 [25][27] 整体评价与可用性 - 模型在音视频参考、声画同步、风格理解方面表现不错,但在个别场景下仍会出现画面逻辑偏差、多角色台词对不上、复杂动作理解不到位等小问题 [7][28] - 对于日常短视频创作和二创而言,模型已经是可用且好用的水平,用户敢多跑几次而不用每次都碰运气 [7][28][29] - 模型还在多图融合、美学要素迁移、历史知识语义理解上做了提升 [30]
摩尔线程算法一鸣惊人,图形学顶会夺银!已开源
量子位· 2025-12-17 17:07
文章核心观点 - 摩尔线程在SIGGRAPH Asia 2025的3DGS重建挑战赛中凭借自研的LiteGS技术获得银奖,证明了其在新一代图形渲染技术上的深厚积累和软硬件协同优化能力,并获得了学术界的高度认可 [1][2][13] - 3D Gaussian Splatting是一项革命性的3D场景表示与渲染技术,相比传统NeRF,它在保持逼真画质的同时,将渲染效率提升了数百至上千倍,并被视为下一代图形渲染的范式革命,对具身智能等前沿AI领域具有关键基础价值 [4][6][8] - 摩尔线程通过开源其3DGS基础库LiteGS,展示了从底层GPU系统到高层算法的全栈协同优化能力,在训练效率和重建质量上树立了新的性能标杆,并致力于推动三维重建与渲染技术的开放协作 [17][20][23] 3DGS技术的重要性与前景 - 3DGS是一项于2023年提出的革命性技术,以可参数化的3D高斯分布为核心,在画质、效率与资源占用间实现了卓越平衡 [4] - 相比传统神经辐射场技术,3DGS在保持逼真渲染质量的前提下,将渲染效率提升数百至上千倍,并在光线追踪、VR/AR实时渲染、多模态融合等方向展现出极强的适应性与扩展性 [4] - 该技术为需要高质量、低延迟三维环境建模的具身智能等前沿领域提供了可靠支撑,有助于提升智能体的路径规划、环境感知和复杂操作任务能力,正成为具身智能训练场景中的关键基础技术之一 [6][7][8] - 3DGS已成为全球学术界与产业界竞相投入的研究方向,受到了SIGGRAPH Asia等权威机构的高度关注 [8] 挑战赛详情与公司表现 - 本次竞赛任务极具挑战性,要求参赛团队在60秒内,基于一段10-30秒的真实终端视频序列、存在误差的相机轨迹及终端SLAM点云,完成高质量的3DGS重建 [9] - 主办方以峰值信噪比和重建速度作为综合评价指标 [10] - 摩尔线程AI团队在重建精度与效率两项指标上取得均衡表现,最终获得银奖 [13] - 具体成绩为:平均PSNR 27.58,位列前三;重建耗时34秒,显著领先多数队伍 [15] - 官方排名显示,摩尔线程团队在8支决赛队伍中PSNR排名第三,耗时与另一支队伍并列第三快 [16] 摩尔线程的LiteGS技术优势 - 摩尔线程自主研发了3DGS基础库LiteGS,旨在解决3DGS训练过程耗时过长(通常需要数十分钟甚至数小时)的瓶颈问题 [17] - LiteGS首次实现了从底层GPU系统、中层数据管理到高层算法设计的全链路协同优化 [18] - 在GPU系统层面,创新提出基于“One Warp Per Tile”原则的“Warp-Based Raster”新范式,结合扫描线算法与混合精度策略,大幅降低梯度计算开销 [18] - 在数据管理层,引入“聚类-剔除-压缩”流水线,借助Morton编码提升数据局部性,减少缓存失效 [18] - 在算法设计层,采用更鲁棒的像素不透明度梯度方差作为致密化核心判据,精准识别欠拟合区域 [18] - 通过系统与算法的协同优化,LiteGS在训练效率与重建质量上均实现显著领先 [20] LiteGS的性能数据 - 在达到与当前质量最优方案同等水平时,LiteGS可获得高达10.8倍的训练加速,且参数量减少一半以上 [20] - 在相同参数量下,LiteGS在PSNR指标上超出主流方案0.2–0.4dB,训练时间缩短3.8至7倍 [20] - 针对轻量化模型,LiteGS仅需原版3DGS约10%的训练时间与20%的参数量,即可实现同等质量 [21] - 该技术已全面开源,以推动三维重建与渲染技术的开放协作与持续演进 [23] 公司的战略与未来动向 - 此次获奖体现了公司准确把握全球技术发展趋势并引领未来图形计算技术方向的战略眼光 [23] - 3DGS技术对算法与硬件协同提出了极高要求,公司通过创新的算法设计、深度优化的自研硬件以及高效的软硬件协同,展现了卓越的综合能力 [24][25] - 这一成就印证了公司在图形智能计算领域技术路径的前瞻性与工程可行性,体现了将前沿研究快速转化为实践成果的强大执行力 [25] - 公司将于2025年12月20日-21日举办的首届MUSA开发者大会上设立技术专题,深入探讨3DGS等图形智能技术如何塑造未来,赋能具身智能等前沿领域 [25]
大模型的进化方向:Words to Worlds | 对话商汤林达华
量子位· 2025-12-17 17:07
文章核心观点 - 商汤科技发布的原生多模态空间智能模型SenseNova-SI,在多项基准测试中超越了李飞飞团队的Cambrian-S等模型,标志着公司在空间智能领域达到世界前列水平 [2][3][4][5][6] - 行业单纯依赖参数规模扩展的AI发展范式面临瓶颈,边际效应递减,未来需要回归科研本质,发展能够理解物理世界的原生多模态模型 [8][9][12][13][14][15][16] - 商汤科技通过底层架构创新(NEO架构)和极致工程优化(如算法蒸馏),实现了技术突破与商业落地成本的大幅降低,践行“原始创新”与“击穿工业红线”的双轮驱动战略 [39][49][58][61][63][67] 模型性能与突破 - SenseNova-SI模型在多个空间智能基准测试(vsi, MMSI, MindCube-Tiny, ViewSpatial, SITE)中均取得了SOTA成绩,超越了包括Cambrian-S在内的开源及闭源模型 [4][5] - 具体数据:SenseNova-SI的1.1-InternVL3-2B版本在vsi基准得分为63.7,高于Cambrian-S-3B的57.3;其1.1-InternVL3-8B版本在vsi基准得分为68.7,高于Cambrian-S-7B的67.5,并在MindCube-Tiny基准上以85.6分大幅领先 [5] - 该模型基于商汤科技开源的NEO架构,仅用同类模型10%的训练数据就达到了SOTA水平,数据效率提升了10倍 [39][49] 行业范式转变 - AI行业过去三年奉行Scaling Law,依赖算力、GPU和数据堆叠,但自2024年下半年起,风向转变,模型分数提升带来的惊艳感边际递减 [12][13][14] - 纯语言模型红利将尽,顶尖模型在数学、编程上接近奥赛金牌水平,但在理解物理世界、处理三维空间关系上能力薄弱 [20] - 未来的AGI必须是能够理解物理世界、具有多感官能力的世界模型,AI需要从“读万卷书”(语言模型)进化到“行万里路”(空间与世界交互) [20][21] - OpenAI前首席科学家Ilya Sutskever提出“Back to Research”的呼吁,与商汤科技首席科学家林达华的思考不谋而合 [17][19] 技术架构创新 - 传统多模态模型采用“视觉编码器+大语言模型”的拼接式架构,视觉信号在转化为语言Token过程中丢失大量空间细节和三维结构信息,导致模型出现“幻觉”(如数不清手指) [32][33][36][37] - 商汤科技提出的NEO架构是原生多模态架构,从最底层的Transformer Block开始,每个单元都能同时处理视觉和语言信号 [42] - NEO架构采用混合注意力机制,让视觉Token和文本Token一同进入模型的每一层进行推理计算,并引入“跨视角预测”等训练方法,让模型真正理解三维空间关系 [44][46][47][48] 商业化落地与成本优化 - 大模型行业当前痛点包括不够聪明、成本太高、速度太慢,商汤科技内部设定“工业红线”标准:技术使用成本必须低于其创造的价值 [53][54][55] - 以视频生成为例,商汤科技通过“算法蒸馏”技术,将扩散模型的推理步数从100步压缩到4步,实现了64倍的速度提升,使得在消费级显卡上实时生成高质量数字人视频成为可能 [59][61][63][64] - 实时语音驱动数字人产品SekoTalk展示了算法与系统协同的极致优化,将20秒视频生成时间从一小时缩短到实时,为直播、短视频等领域的规模化落地打通路径 [58][65][66] 对中国AI产业的启示 - 在从“语言”到“世界”的AI范式迁徙中,中国科技公司已经抢到了一张船票 [11][73] - 中国拥有全世界最丰富的应用场景和最完整的工业体系,这片土壤天生适合培育能与物理世界深度交互的AI [72] - 建议年轻研究者和创业者不要只拥挤在大语言模型赛道,应拓宽视野至具身智能、AI for Science、工业制造、生命科学等领域 [68][69][70]
让大模型“吃一堑长一智”,南理工百度等提出模型记忆新方法
量子位· 2025-12-17 17:07
文章核心观点 - 南京理工大学与百度等单位联合提出了一种名为ViLoMem的新方法,该方法通过构建视觉流与逻辑流分离的双流语义记忆,使多模态大模型能够从错误中学习,有效解决了模型“记不住教训”的问题[1] - ViLoMem是一个即插即用的框架,无需微调模型参数,即可在多模态推理基准上稳定提升模型性能,并为构建能从经验中学习的多模态智能体提供了新路径[5] 技术原理与框架 - ViLoMem的核心思想是将“看错了什么”(视觉错误)和“想错了什么”(逻辑错误)分开记忆,模仿人类的多模态整合语义记忆方式[14][16] - 框架包含记忆生成与记忆检索两个关键部分[18] - 记忆生成:当模型解题失败时,并行启动视觉分析模块与逻辑分析模块,分别生成结构化的视觉指南和逻辑规则[19][20][21] - 记忆检索:采用不同的策略。视觉记忆采用两阶段检索(图像级相似度搜索与问题语义过滤)并生成问题感知的注意力热力图;逻辑记忆则基于对题目的理解进行语义匹配检索[26][27][28][29] - 通过“增长-精炼”机制控制记忆规模,新记忆会与已有记忆进行相似度匹配,或合并为更通用的规则,或创建新记忆槽位,避免记忆无限膨胀[23][24] 性能提升效果 - 在六个多模态基准测试中,ViLoMem使GPT-4.1在MathVision上的得分提升+6.48,在MathVista上提升+2.61[2][31] - 对于小模型,Qwen3-VL-8B在MMMU基准上提升+4.38,在RealWorldQA上提升+2.74[2][31] - 从任务类型看,数学与视觉密集任务收益最大,因为双流记忆能阻断视觉错误向推理链条的级联传播[31][33] - 从模型规模看,小模型提升幅度更大[31] 知识迁移与蒸馏效应 - ViLoMem支持跨模型记忆迁移,即小模型可以直接使用大模型生成的记忆[34] - 实验显示,Qwen3-VL-8B使用大模型(Qwen3-VL-235B)的记忆后,在MMMU上的得分从69.90提升至71.26,在MathVista上从77.87提升至79.20[36] - 这提供了一种“免微调的知识蒸馏”路径,使强模型的经验能直接赋能弱模型[3][36]
挖掘注意力中的运动线索:无需训练,解锁4D场景重建能力
量子位· 2025-12-17 17:07
文章核心观点 - 香港科技大学(广州)与地平线研究团队提出了一种名为VGGT4D的无需训练框架,旨在通过挖掘预训练的3D基础模型(VGGT)内部隐藏的运动线索,使其在不增加训练成本的前提下,获得处理动态4D场景的能力 [1][2][6] 技术背景与挑战 - 以VGGT、DUSt3R为代表的3D基础模型在静态场景重建中表现出色,但在处理包含移动物体的动态4D场景时性能显著下降,动态物体会干扰背景几何建模并导致相机位姿漂移 [4] - 现有解决方案面临两大挑战:一是依赖繁重的测试时优化或大规模4D数据微调,导致计算或训练成本高;二是需要引入光流、深度估计等额外模块,增加了系统复杂性 [5] 核心发现与原理 - 研究发现,VGGT虽然是基于静态假设训练的,但其内部不同网络层对动态区域的响应模式不同,表明模型已隐式编码了丰富的动态线索 [7][13] - 标准注意力图混合了纹理、语义和运动信息,信噪比低,导致基于极几何假设的方法在VGGT上失效 [13] - VGGT4D的核心是提出一套无需训练的注意力特征挖掘与掩膜精修机制,通过深入特征流形内部,利用Gram矩阵和梯度流实现高精度的动静分离 [14] 关键技术方法 - **特征挖掘**:引入自相似性Gram矩阵替代标准注意力图,通过在同构潜在分布内计算相似度,使运动引起的方差成为主导信号,并在时间窗口内聚合不同层级的统计矩以构建动态显著性场 [17] - **掩膜精修**:引入投影梯度感知精修,利用3D点几何投影残差关于坐标的梯度所包含的强边界信息,结合光度残差项,实现对动态掩膜的亚像素级锐化 [18][19] - **推理策略**:采用分布内早期掩膜策略,仅在浅层抑制动态Token的Key向量,既切断了动态信息对深层几何推理的影响,又保证了深层Transformer Block在预训练特征流形上运行,确保了位姿估计的鲁棒性 [19] 性能评估与结果 - **动态物体分割**:在DAVIS-2016和DAVIS-2017数据集上,VGGT4D取得了最优性能。例如,在DAVIS-2016上,其JM指标达62.12,JR指标达76.80,显著优于其他方法。定性结果显示其生成的掩码更准确、边界更清晰 [21][22] - **相机位姿估计**:在长序列Point Odyssey基准测试中,VGGT4D在所有指标上均取得最佳结果,且能高效运行(许多其他方法因内存不足无法运行)。其ATE指标为0.019,优于VGGT基线的0.022 [25][26] - **4D点云重建**:在DyCheck数据集上,VGGT4D在所有重建指标上均取得最佳性能。与VGGT基线相比,中位准确度误差从0.009降低到0.004,平均距离从0.150降低到0.123 [28] - **基线对比**:原始VGGT本身已是强大基线,优于MonST3R、DAS3R等专门方法,而VGGT4D在所有数据集上持续改进了这一基线。例如在VKITTI数据集上,VGGT4D的ATE为0.164,远低于MonST3R的2.272 [23] 意义与潜力 - VGGT4D提出了一种无需训练的新范式,成功将3D基础模型能力扩展至4D动态场景,证明了通过挖掘模型内部Gram相似度统计特性可有效解耦动态与静态信息 [30] - 该工作为低成本的4D重建提供了新思路,并展示了基础模型在零样本迁移任务中的潜力 [30]
量子位编辑作者招聘
量子位· 2025-12-17 17:07
公司概况与行业地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在AI及前沿科技新媒体领域处于行业TOP1地位[12] - 截至2025年,公司在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量200万+[12] 招聘岗位与方向 - 公司开放三大方向的岗位招聘:AI产业方向、AI财经商业方向、AI产品方向[2][6] - 岗位面向社招和校招,社招覆盖编辑、主笔、主编各个层级,校招面向应届毕业生并接受实习转正[4][6] - 所有岗位工作地点均位于北京中关村[2] AI产业方向岗位详情 - 岗位职责包括跟进AI基建层新进展,涵盖芯片、AI Infra、云计算领域及核心玩家动态[6] - 职责还包括对前沿论文、开源社区、技术大会报告进行大众化解读[6] - 需要参与核心采访,对话产业专家、技术大牛,并撰写AI云落地案例[7] - 任职要求对芯片、GPU、NPU、服务器、模型训练架构、云计算等有基本理解[11] - 要求熟悉AI行业供应链与生态,并能将复杂技术内容结构化表达,有技术背景者优先[11] AI财经商业方向岗位详情 - 岗位职责聚焦创投、AI创业公司、上市公司、商业模式及产业链资本动向[11] - 需要产出创投融资、招股书财报解析、公司战略分析等稿件[11] - 需要访谈对话投资人、创业者、产业分析人士[11] - 任职要求对数据敏感,对财报、股权结构、战略规划感兴趣[11] - 要求逻辑结构强,对商业叙事敏感,并热爱对话采访[11] AI产品方向岗位详情 - 岗位职责关注AI在终端的落地,包括软件应用产品和硬件方向[11] - 需要撰写AI应用产品深度评测,并跟踪多终端新品发布[11] - 需要对话访谈AI应用创业者、产品专家、终端技术专家[11] - 任职要求对智能硬件、AI终端趋势敏锐,是重度AI产品体验人士[11] - 要求熟悉各大终端厂商业态和体验方法论,并有强逻辑与结构化表达能力[11] 加入公司的优势 - 员工可第一时间接触AI领域最新技术和产品,构建完整的AI认知体系[6] - 可将各种AI新技术、新工具应用于工作,提升效率和创造力[6] - 可通过撰写独家原创内容建立个人知名度,成为AI领域意见领袖[6] - 可与AI领域大咖零距离接触,参与重要科技活动,拓展行业人脉[6] - 应届新人可获得主编级编辑的一对一指导[6] - 可加入扁平、简单、开放、多劳多得的活力团队[6] - 可获得行业TOP薪资待遇及包含五险一金、餐补、绩效、加班补助等在内的丰厚福利[6]
英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它
量子位· 2025-12-17 11:38
英伟达收购SchedMD的战略意义 - 公司收购了高性能计算与AI领域的“资源调度王牌管家”SchedMD,其核心资产是开源工作负载管理系统Slurm [1][2] - Slurm系统在全球超半数TOP500超级计算机、科技巨头Meta以及Mistral和Thinking Machines等AI创企中得到广泛应用,行业地位不可替代 [3][9][10] - 该收购被业界评价为“悄悄把自家的护城河拓宽了”,因为即使客户使用AMD或Intel芯片,只要依赖Slurm调度算力,就绕不开英伟达生态的辐射 [3][15] SchedMD公司业务与商业模式 - SchedMD成立于2010年,专注于大规模计算任务调度技术 [5] - 其核心产品Slurm能高效分配成千上百台设备的算力资源,服务于大模型训练、数据预处理、天气预报及基因测序等任务 [6] - 公司商业模式清晰:Slurm免费开源,通过提供专业工程支持、系统维护和定制化开发等增值服务盈利 [8] 英伟达的收购动因 - 整合成本低:双方已有十年合作基础,技术衔接与团队整合成本较低,便于英伟达快速将SchedMD能力融入自身生态 [12][13] - 战略价值高:收购使英伟达的影响力从硬件层延伸至调度层,有助于锁定超算中心、云厂商和AI企业等核心客户群体 [14][15][16] 收购后的承诺与外界关切 - 英伟达官宣收购时承诺,将继续保持Slurm的开源和供应商中立属性,确保全球用户正常使用 [18] - 外界担忧英伟达可能不会持续投入开发支撑新云厂商服务的Slinky项目关键仓库,若后续开发断档可能影响相关业务稳定性 [19][21] 英伟达同期推出的Nemotron 3系列开源模型 - 公司推出了采用MoE架构、支持百万token上下文窗口的Nemotron 3系列开源模型,包括Nano、Super和Ultra三种规模 [22] - Nano模型总参数30B,单次任务激活3B参数;Super总参数100B,每token激活10B参数;Ultra总参数500B,每token激活50B参数 [22] - 该设计通过精准控制活跃参数量,在保留大模型核心能力的同时大幅减少算力消耗 [23] - Nano模型现已推出,相比前代Nemotron 2 Nano,吞吐量提高4倍,推理成本更低,并被Artificial Analysis评为同类型中最开放高效的模型 [25][26][27] - Super和Ultra模型预计于2026年上半年推出 [25]
Google全链路赋能出海:3人团队调度千个智能体,可成独角兽|MEET2026
量子位· 2025-12-17 11:38
文章核心观点 - AI智能体作为新的生产力单元,正在重新定义初创企业的出海逻辑、团队边界、人效比和商业模式 [2] - 智能体赛道处于早期阶段,未来一两年将经历剧烈变化,是中国初创企业出海的重大机遇窗口 [3] - 谷歌推出了AI驱动的一体化全链路解决方案,旨在赋能初创企业高效出海 [4] - 未来商业模式将从SaaS按月订阅转向按结果付费(Outcome-based),这是智能体时代的底层逻辑变化 [7] - 3到10人的初创团队通过调度大量智能体可能成长为独角兽,但需构建数据壁垒和行业深度集成 [7] 初创企业出海阶段与谷歌支持方案 - **第一阶段:萌芽与战略规划期** - 创始人使用Gemini进行市场调研和竞品分析,其储存的海量资料可辅助完成从市场洞察到最小可行产品的整个流程 [8] - **第二阶段:产品推出期** - Google Cloud平台为成型的产品提供稳定的云基础设施支撑 [9] - **第三阶段:首个市场验证期** - Google Ads团队帮助初创公司通过高效广告渠道触达目标客户群体,完成从0到1的破局 [9] - **第四阶段:多市场扩张期** - Google Play、Google AdMob/AdSense、Google Maps等产品为市场拓展提供协同支持 [9] - **第五阶段:IPO成熟期** - 谷歌的数据分析工具和周边服务助力企业完成上市前的持续迭代和规模化增长 [10] Gemini模型的演进与能力 - **发展历程** - 谷歌合并Google Brain与DeepMind后,在极短时间内推出了首个原生多模态模型Gemini 1 [14] - Gemini 1.5和2.0版本在推理、理解和问题解决能力上经历质的提升 [15] - 2025年11月发布的Gemini 3基于此前迭代重构,在多个权威评测榜单中排名第一,标志着从“辅助工具”向“自主智能体”的跨越 [7][15] - **关键能力** - 支持100万Token的超长上下文窗口,使得上下文工程(Context Engineering)变得比提示词工程(Prompt Engineering)更重要 [21] - 原生多模态能力,可像理解文字一样理解视频、图像和语音,且清晰度和准确度大幅提升 [22] - 精准工具调用(Function Calling)能力,让智能体能够调用外部工具和服务,配合Vertex AI、Agent Builder等平台可构建更专业的智能体 [23] - Gemini 3是谷歌迄今为止最安全的模型,接受了最全面的一套安全评估 [24] - **行业意义** - 智能体已从概念发展为具备真实变现能力的应用,有团队已成功将智能体产品化,转化为真实的年度经常性收入和年度合同价值 [15] 智能体协同协议与商业模式变革 - **A2A协议(智能体间通信协议)** - 由谷歌主导推出,旨在打通跨企业、跨系统的智能体协同,让智能体之间能够自主协同、自主下达任务、自主执行工作流程 [7][16] - 核心是为每个智能体定义功能层面的API,使其能够被复用,实现跨界协同,在特定场景下自主请求其他智能体提供方案并通过AI算法做出最优选择 [17] - 非谷歌独角戏,已获得埃森哲、Salesforce、麦肯锡、SAP等全球顶级咨询公司、传统ERP厂商及众多科技公司的拥抱,谷歌正推动其全球化 [17] - **AP2协议(智能体支付协议)** - 由谷歌提出,旨在解决智能体间的信任和支付问题,已获得传统金融机构和新兴金融科技公司的广泛支持 [17] - 目标是建立基于多方共识的高信任度支付网络,不让交易被锁定在单一支付系统中 [17] - **商业模式转变** - 从旧生态的SaaS按月订阅(助手模式,按时间收费)转向新生态的按结果付费(Outcome-based),为最终结果而非过程动作付费 [7][18] - 按结果付费模式已成为市场上的差异化卖点 [18] - **新商业模式下的机遇与挑战** - 机遇:3到10人的初创公司可能成长为独角兽,因为每个员工可调度十个、一百个甚至一千个智能体处理执行工作,人类专注于战略决策 [18] - 挑战:竞争壁垒从漂亮的用户界面和体验,转向与传统行业的深度集成以及独有的专有数据 [18] - 风险:智能体自主决策若犯错,赔偿责任界定因国家法律不同而异,是出海必须考量的法律合规问题 [19] 行业趋势与初创企业建议 - **技术挑战与演进** - 大模型领域的共同难题“幻觉”问题,正通过更好的模型训练、工程化实践以及客户侧的上下文工程逐步缓解 [11] - 未来一年整个AI领域会继续快速演进 [11] - **对初创企业的建议** - 无论产品处于何种阶段,都应认真思考如何将智能体协同、上下文工程、按结果付费等新概念融入自身业务 [11] - 如果通过智能体赛道出海,现在是值得认真考虑的时机 [12]
是个公司都在用AI Agent,但大家真的用明白了吗??| MEET2026圆桌论坛
量子位· 2025-12-17 09:04
文章核心观点 2025年被行业普遍视为“AI Agent元年”,技术可行性与初步价值已在客服、理赔等标准化场景得到验证[1] 然而,行业当前面临的核心挑战是如何同时跑通技术、产品与商业三条曲线,形成可持续的正向闭环[2] 从技术概念走向规模应用的关键路径,以及产业先行者们在探索中所面临的思考与抉择[4] 嘉宾背景与工作重点 - **联汇科技CEO赵天成**:团队聚焦于研发终端侧多模态模型,并探索让智能体从数字世界走向物理世界,实现“物理智能体”[11] 核心方向是通过智能体网络串联无人机、机器人、摄像头等智能终端,实现从感知、决策、执行到反馈的完整闭环[12] - **蚂蚁集团徐达峰**:团队主要聚焦两个方向,一是重构软件研发方式,构建名为WeaveFox的智能研发体系,旨在将AI转变为研发体系的原生能力[15] 二是致力于将多智能体能力带给大众用户,推出了“蚂蚁百宝箱”及“百宝箱超级智能体”,目标是打造无需代码、开箱即用的通用Agent平台[16] - **小宿科技联合创始人杜知恒**:公司打造面向Agent的一站式基础设施平台,其中尤为重要的产品是为Agent设计的搜索引擎,提供多语言、全球化的搜索工具,以及模型服务、AI沙盒等多样化Agent工具集[18][19] 落地效果与价值体现 - **多模态能力带来的突破**:2025年是视觉语言大模型(VLM)大幅成熟的一年,GPT-4o、Gemini 3等模型对图像和视频的理解能力有质的飞跃[20] 这使得智能体能够直接处理视频、扫描件、图片等混合多模态数据,打开了大量以前不敢想的场景[20] - **执行智能体带来的价值跃升**:执行智能体能够直接操控机械臂等设备在现场解决问题,其价值远超仅提供提醒的智能体[21] 例如,客户为仅具备监控功能的终端可能最多支付一千元,而为具备执行能力的智能体则愿意支付十万元,实现了价值一百倍的提升[21] - **Coding Agent的效率提升**:在蚂蚁的实践中,Coding Agent已从“写一段代码”进化为“跑一段流程”,能自动生成可上线代码[25] 在多个规模化项目中,稳定实现了3~5倍的效率提升,过去需要工程师半天调试的任务,现在Agent几十秒就能完成[25] - **垂类软件的AI化**:上一代SaaS公司正在快速引入AI能力,显著提升了服务客户的效率与质量[24] Agent在核心工作流中已能交付实习生水平的结果,例如做PPT、写产品文档、写代码等[24] 优秀AI Agent的衡量指标 - **结果交付能力**:优秀的Agent应能在特定场景交付一个相对完整的结果,其价值应与人力价值对比,而非仅看作软件订阅费[27][29] 即便存在“堆砌Token”的争议,通过AI节省的人工成本也远超Token投入的费用[28] - **可进化性**:Agent应具备在实际应用中通过丰富上下文、记忆和用户反馈不断学习与进化的能力,而非初始部署后一成不变[32] 用户需接受渐进式优化的模式,而非要求初始阶段就达到95%的准确率[32] - **人机协作流程设计**:优秀的产品需设计好人机协作流程,能够在犯错时暴露不确定性、具备回滚能力,并能顺畅地将任务交由人工接管[35] 它应像一位可靠的同事,而不仅是效果惊艳但缺乏协作性的工具[35] - **可控性、可解释性与稳定性**:这些是Agent产品的基础要求[35] 未来关键演进方向与卡点 - **关键演进方向**: - **可靠性提升**:可靠性是所有智能体成为“每个人每天都在使用”的工具前必须解决的核心问题,尤其在进入物理世界后,可靠性要求更为严苛[56][57] - **物理世界融合**:AI最终必须能够走向现实世界,替代部分蓝领工作,这需要VLA、世界模型等技术的有效拼合[56] - **渗透率提升**:预计2026年,在巨头大规模投入的推动下,AI整体渗透率将显著提升,头部Agent将进入二三线城市并被非专业用户广泛使用[60][61][62] - **架构创新**:未来可能出现全新的架构取代当前“大语言模型+其他模型”的组合形式[56] - **发展关键卡点**: - **双脑架构**:在物理场景中,需构建“双脑架构”,即云端大脑负责决策,端侧小脑模型负责快速执行(如控制无人机飞行),这需要新的框架来集成大脑与小脑[42][43] - **企业级安全与权限**:Agent在企业大规模落地时,面临访问核心资产数据、隐私和安全审计的挑战,需要建立为Agent设计的安全基础设施和权限体系[45][46][47] - **商业可持续性(负毛利问题)**:目前市场上绝大多数Agent以负毛利运营,完成任务所付出的代价高于用户支付意愿,这对创业者是巨大挑战,商业模式跑通是关键[49] - **使用门槛**:面向大众的产品,使用门槛必须足够低,不能预设用户具备专业知识或懂代码[51] 率先被改变的行业与场景 - **容错空间较大的场景**:在未来6个月内,那些失败结果不具灾难性、容错空间较大的场景可能率先实现工作流彻底改变,例如AI做三次的成本仍低于人工全程成本的场景[34] - **软件工程**:由于工具链成熟、有上一代数字基建基础、任务偏向结构化且自动化收益高,软件工程领域可能面临较大的冲击和变革[36][37] 进入新阶段的标志性节点 - **高频应用渗透**:当每个人每天最高频使用的三个APP中有两个是Agent时,意味着进入了新发展阶段[72][73] - **非技术人群广泛使用**:当年长者或非技术行业的人真正开始使用Agent改变生活方式或提升体验时,例如妈妈开始用Agent画PPT[69][71] - **现象级应用出现**:在泛娱乐等赛道出现提供情绪价值的Killer App(现象级应用),并扩展到智能硬件上[65]
反超Nano Banana!OpenAI旗舰图像生成模型上线
量子位· 2025-12-17 09:04
模型发布与核心定位 - OpenAI正式发布了憋了大半年的旗舰级图像生成模型GPT-Image-1.5,旨在全面对标谷歌的Nano Banana [2][13] - 该模型的核心产品理念是提升“实用性”,主要亮点包括更严谨的指令遵循、精确编辑、细节保留以及生成速度比以前快4倍 [3][5][14] - 模型已全面开放,将在ChatGPT中面向所有用户推出,并在API中作为GPT Image 1.5推出 [12][38] 核心性能与功能改进 - 在图像编辑方面,模型对指令的遵循更加严谨,能确保光照、构图、人物外观等关键要素在输入、输出及多轮编辑中保持高度一致 [15] - 图像生成的真实感有明显提升,例如在生成特定年代和场景的逼真照片时,新模型效果显著优于旧模型 [21] - 文本渲染能力进步明显,能够处理更密集、更小字号的文字,甚至可以生成类似技术报告的内容 [28] - 在创意任务中,模型能够稳定保留关键信息与人物特征,例如根据人物图片制作特定风格的好莱坞电影海报 [23][26] 市场表现与基准测试 - 根据评测机构Artificial Analysis的数据,GPT-Image-1.5在文本转图像和图像编辑的排行榜中均位列第一,超过谷歌的Nano Banana Pro [33] - 在文本转图像榜单中,GPT Image 1.5的ELO评分为1,273分;在图像编辑榜单中,其ELO评分为1,260分 [34] - 在更强调精细化图像编辑能力的GenAI Image Editing Showdown中,该模型虽未反超谷歌,但其指令遵守率高达90%,断层式领先 [34][35] 商业化与定价策略 - 公司采取了“精细编辑+降价”的策略,意图将图像功能推向生产力工具 [41] - GPT-Image-1.5的API定价相较上一代GPT Image 1,输入与输出成本整体下降了20% [39] - 具体价格因分辨率而异,生成高质量图像的成本约为每千张133美元,低质量图像约为每千张9美元 [40] 行业竞争与市场反馈 - 模型发布被视作对谷歌Nano Banana的正面回应,行业竞争加剧 [13] - 尽管性能领先,但有行业人士指出,GPT-Image-1.5在“理解世界”的层面似乎仍不如Nano Banana,后者被认为更像一个世界模型 [45][46][47] - OpenAI高管Sebastien Bubeck亲自为模型站台,并对部分质疑进行了回应 [42][46]