Workflow
量子位
icon
搜索文档
2.4万亿参数原生全模态,文心5.0一手实测来了
量子位· 2025-11-13 17:25
产品核心特性 - 全新一代文心5.0主打原生全模态,从训练伊始就将语言、图像、视频、音频置于同一套自回归统一架构中进行统一的理解与生成训练[1] - 模型支持全模态输入(文字/图片/音频/视频)与全模态输出(文字/图片/音频/视频),在创意写作、指令遵循、智能体规划方面能力更强[1] - 预览版(Preview)当前支持全模态输入,但输出暂为多模态(文字/图片),能够实现全模态输出的完整版正在进行产品体验优化,后续将推出[15] 技术能力与性能表现 - 在官方基准测试中,文心5.0 Preview在语言、视觉理解、音频理解、视觉生成多维度表现突出[7] - 在大模型竞技场LMArena的文本排行榜(Text Arena)上得分1432,与GPT-4.5-preview、Claude-Opus-4-1、Claude-Sonnet-4-5等并列全球第二,位居国内第一[9] - 模型具备精细的多模态理解能力,能精准识别视频中的动作阶段、选手信息、动作名称、难度系数,甚至识别慢放片段和视频情感[26][27][28][30] - 具备跨模态信息整合与综合推理能力,能结合视频情节、台词等内容理解情感氛围和叙事意图,不易被单一模态误导[51] 技术架构与实现 - 采用非后期拼接的原生全模态路线,通过自回归统一结构对不同模态的训练目标进行离散化建模,使多模态特征在统一架构中融合与协同优化[63][64][66] - 引入超大规模混合专家架构,通过稀疏激活机制降低计算负载,每次推理仅激活与任务最相关的专家模块[67] - 模型总参数规模超过2.4万亿,激活比例低于3%,在保持性能的同时显著优化了计算与推理效率[69] - 百度飞桨深度学习框架为万亿级参数模型的高效分布式训练和推理成本优化提供了关键支撑[69] 应用场景与功能展示 - 支持单次交互中跨文件类别混合上传文档、图片、音频、视频,经用户授权可与百度网盘关联,直接访问处理网盘文件[18][20] - 具备智能体能力,可自主调用搜索工具进行信息查询与角色定位[36] - 支持文图混合输入生成新图,并能对视频、音频内容进行快速总结,一次性最多可上传10个视频进行多任务内容整理[53][56][57] - 能够进行音视频融合生成,例如生成3D交互式地球与卫星演示模型,用户可通过鼠标拖拽旋转视角[5] 行业定位与迭代节奏 - 行业竞争逻辑转向注重底层架构创新、训练与推理效率、落地成本等多维度综合考量[72] - 公司基础模型迭代步伐加快,4月发布文心4.5 Turbo和文心X1 Turbo,6月底文心4.5系列10款模型宣布开源,9月发布文心X1.1深度思考模型[73][74] - 文心5.0原生全模态模型的推出是公司在底层架构实现的差异化突破,体现了在算法训练、推理优化及生态协同等全链路的系统性积累[75]
Nature公开谷歌IMO金牌模型技术细节!核心团队仅10人,一年给AI编出8000万道数学题训练
量子位· 2025-11-13 13:38
核心观点 - 谷歌DeepMind在Nature上完整公开了其数学证明AI系统AlphaProof的技术细节,该系统在2024年国际数学奥林匹克竞赛(IMO)中取得金牌级表现,其核心创新在于将数学证明构建为强化学习游戏,并利用大规模自动生成的问题进行训练[1][8][26] 技术架构与训练方法 - 系统基于Lean定理证明器构建强化学习环境,将数学命题视为游戏关卡,AI通过选择策略推进证明[8][9] - 采用30亿参数的编码器-解码器transformer模型作为证明网络,同时输出策略建议和完成证明的步数估计[12][13] - 搜索算法采用受AlphaZero启发的树搜索,并引入AND-OR树结构处理多个独立子目标,以及渐进采样机制[15] - 预训练使用约3000亿个token的代码和数学文本,微调使用Mathlib库中约30万个人工编写的证明[16] - 通过基于Gemini 1.5 Pro的翻译系统,将约100万道自然语言数学题自动生成为约8000万道形式化问题,极大扩充了训练数据集[16][21] - 主训练阶段消耗约8万TPU天的计算资源[19] 关键创新:测试时强化学习 - 面对IMO级别难题时,系统会为每道题生成约40万个相关变体(如简化版、推广版),并启动独立的AlphaZero式学习过程进行专门训练[23][24][26] - 此TTRL机制使系统能针对特定难题积累洞察,是解决IMO最难题P6的关键,每道题训练需2-3天计算时间[24][26] - 比赛期间,团队最初仅凭部分证明系统判断为铜牌水平,但后台运行的TTRL在三天后陆续完成三个完整证明,最终达到金牌成绩[27][28] 团队与开发过程 - AlphaProof核心团队规模较小,大部分时间仅有约10人,临近IMO比赛时人员增加[3] - 关键突破来自IMO金牌得主Miklós Horváth提出的方法,即创建问题变体作为初始状态供智能体训练[4][5] - 团队在一年内探索多种研究思路,成功部分被整合进最终系统[7] 应用前景与局限性 - 系统已向科学界开放,数学家试用反馈显示其特别擅长找出反例,能在一分钟内证明或反证棘手的引理,有助于迭代修正数学陈述[30][31][32] - 局限性在于处理充满“定制化定义”的全新概念时遇到瓶颈,在Lean证明器策略成熟的数学子领域表现更佳[33][34] - 未来发展面临“数据有限性”挑战,需使AI能自主生成问题以实现通用性,其即时共享知识并生成训练数据的能力预示在数学领域可能远超人类[35][36][37]
IDE?字节TRAE搞了个大升级,现在能全流程开发了
量子位· 2025-11-13 13:38
产品定位与核心升级 - 产品定位从传统IDE转变为集成了多智能体协同架构与全流程开发工具链的AI协作平台 [3] - 核心升级重点是从Beta版的0到1搭框架,跳跃到1到100处理复杂项目的阶段 [4] - 升级思路更贴近开发者需求,不抢主导权,旨在实现人主导、AI协作的理想开发状态 [16][18] 多智能体协作架构 - 新增SOLO Coder智能体,专门解决修改已有仓库代码和重构架构时AI生成代码不贴合业务或理解不了复杂项目结构的问题 [5][6] - Plan模式在写代码前先与开发者厘清开发方案,包括代码改动清单和阶段目标拆分,避免方向性错误 [8] - 支持调度多个子智能体(如重构助手、性能优化助手)协同工作,并能通过手动或智能方式创建自定义智能体 [10] - 在执行复杂任务时能清晰拆分和隔离精细化任务,减少上下文污染问题 [9][11] 界面效率与操作优化 - 采用三栏布局,将多任务列表、对话流、工具面板分开,便于多任务并行推进和随时查看进度 [12] - 工具面板直接集成数据库、部署、设计稿等常用工具,减少在不同应用间切换的无效操作 [13] - 在长上下文场景中,对话流窗口可自动折叠冗余步骤只留关键摘要,并提供手动上下文压缩功能以节省Token [13] - 提供代码变更可视化功能,点击即可查看Diff,清晰展示AI修改的代码行和具体内容 [14]
李飞飞3D世界模型公测,网友已经玩疯了
量子位· 2025-11-13 13:38
产品发布与市场反响 - 李飞飞创立的World Lab公司发布全新3D世界生成模型Marble,并开启公测,人人可玩[1][3] - 该模型发布后迅速获得好评,用户使用简单,并在社交媒体引发刷屏现象[7][15] - 模型支持通过文本、照片甚至短视频轻松生成可编辑、可下载的专属3D世界,大幅降低使用门槛[4][35] 核心技术功能与特性 - Marble支持通过简短的文本提示、单图提示生成3D世界,并能通过多张图片、不同视角的图片拼接成统一世界[17] - 模型内置AI原生世界编辑工具,可进行局部编辑(如移除物体、修饰区域)或彻底编辑(如交换物体、改变视觉风格、重构大片区域)[21] - 对于专业用户,团队推出原生AI工具Chisel,可直接在3D中塑造Marble世界[23] - 模型支持对已生成世界进行扩展,为特定区域添加细节,并能将任意数量的世界组合起来构建更广阔空间[25][27] 输出格式与兼容性 - 创建的世界可选择两种方式导出:导出为高斯散点(最高保真度呈现形式)或导出为三角形网格(包含低保真碰撞器网格和高质量网格)[29] - 以网格形式导出能使3D世界与众多行业标准工具兼容,便于融入下游项目[29] - 3D世界可渲染成视频,导出后的视频可进行增强,添加细节、去除瑕疵并融入动态元素[31] 战略方向与行业定位 - 作为World Lab首款商业世界模型产品,Marble的核心在于多模态功能的深度落地,支持文本、图像、视频甚至粗略3D布局等多种输入方式[34][35] - 公司未来将重点发力交互性,目标是从静态创造发展到动态交互,实现与3D世界内元素的实时互动[36][37] - 该产品方向与李飞飞强调的空间智能是AI下一个前沿领域的观点一致,旨在打造具备生成、多模态处理和交互预测能力的真正空间智能世界模型[37]
OpenAI新模型GPT-5.1发布,不跑分不刷榜,主打一个说人话
量子位· 2025-11-13 08:49
模型升级概述 - ChatGPT突然更新模型直接升级为GPT-5.1主打更智能更具对话性[1] - GPT-5.1包括两个子模型GPT-5.1 Instant面向日常对话快速响应场景GPT-5.1 Thinking用于复杂推理深入问题场景[2] - 新模型本周内向所有用户免费开放首先提供给付费用户旧版本GPT-5继续向付费用户开放三个月后下架[3] 模型性能提升 - GPT-5.1 Instant作为最常用模型在保证实用性同时以更轻松有趣回答带来惊喜[4][5] - 对比GPT-5回答理性克制GPT-5.1 Instant更像温暖好友例如压力问题回复更人性化[6][7][8] - 新模型遵循指令能力更强例如严格用六字回复而GPT-5未遵守指令[12][13][14][15] - GPT-5.1 Instant首次运用自适应推理技术自主决定思考时机在快速响应同时给出更全面准确答案[17] - 在AIME 2025和Codeforces等数学编程测试中自适应推理技术体现更明显[18] 专业任务表现 - GPT-5.1 Thinking在典型任务中比GPT-5 Thinking快两倍慢任务多思考两倍时间[20][21] - 回答专业问题更清晰减少专业术语和未定义词汇使用例如解释BABIP和wRC+时用通俗比喻补充背景[24] - GPT-5.1 Instant和GPT-5.1 Thinking本周晚些时候引入API[26] 个性化功能增强 - 自定义ChatGPT语气风格更易用提供八种预先人设选项包括专业友好直言古怪高效讽刺书呆子等风格[27] - 用户可调整回复简洁程度亲切程度易读性及表情符号使用频率[27] - 测试功能让ChatGPT主动询问用户是否希望使用特定语气或风格无需用户设置[28] - 升级重点在模型能力和个性化设置两方面[29] 用户实测反馈 - 网友实测显示更个性GPT-5.1有趣例如高效型人格对吹牛获取10吨钋直接嘲讽[30][31][32] - 对离谱问题如卖便便冰棒先劝说后建议改为巧克力恶搞冰棒体现灵活应对[33][35]
小红书提出DeepEyesV2,从“看图思考”到“工具协同”,探索多模态智能新维度
量子位· 2025-11-13 08:49
核心观点 - DeepEyesV2是DeepEyes模型的重大升级版本,实现了从“会看细节”到“能主动解决复杂问题的智能体”的进化 [3] - 该模型突破性地实现了代码执行、网页搜索和图像操作的全工具协同,解决了传统多模态模型工具调用能力薄弱和多能力协同缺失的痛点 [3][4][5][8] - 通过“冷启动+强化学习”的两阶段训练策略,模型具备了自适应推理能力,能根据任务难度动态调整工具调用策略 [37][71][72] 多工具协同能力 - DeepEyesV2能够动态选择、组合和使用工具,包括生成可执行Python代码、进行网络搜索查询和图像操作 [23][24][26] - 模型采用“推理—工具—整合”的循环工作模式,直至得出准确答案,支持在单一轨迹中动态结合代码执行和搜索 [22][25][27] - 代码执行在沙箱环境中进行,产生结构化输出;图像查询通过SerpAPI提交,返回排名前五的视觉匹配网页 [24] 性能表现 - 在团队构建的RealX-Bench基准测试(包含300个真实场景问题)上,DeepEyesV2准确率远超开源模型 [41][45] - 在数学推理任务上,DeepEyesV2(71.9)相比Qwen2.5-VL-7B(68.3)提升3.6个百分点;在MathVerse上从45.6提升至52.7,提升7.1个百分点 [48] - 在搜索任务中,DeepEyesV2在MMSearch上达到63.7,相比Qwen2.5-VL-7B Search提升11.5个百分点 [49] 训练方法论 - 采用两阶段训练策略:阶段一为冷启动,使用感知类、推理类、搜索类和CoT数据打好基础;阶段二为强化学习,通过“准确率+格式规范”双奖励机制优化工具调用 [37][38][43] - 强化学习后模型工具调用率显著下降,从冷启动阶段的90%以上降至自适应水平,表明模型学会了“按需调用”工具 [66][67] - 最优数据组合为“感知+推理+CoT”,三类数据结合后模型在感知和推理测试集上均实现最优表现 [58] 技术突破 - DeepEyesV2通过强化学习自主获得了通过代码访问API的技能,而该行为在训练数据中并不存在 [19] - 模型展现出任务自适应的工具使用模式,对于真实世界感知任务偏向使用裁剪工具,数学推理任务主导使用数学计算,搜索任务主要使用搜索工具 [62][63] - 在复杂问题解决示例中,模型能依次调用图像搜索、文本搜索和代码执行API获取雅虎金融数据并进行计算 [15][16][17]
稚晖君最新188机器人,阅后即焚
量子位· 2025-11-13 08:49
文章核心观点 - 具身智能机器人领域市场热度极高,智元机器人通过非传统并购方式获得上纬新材控股权,引发后者股价在4个月内飙升1500% [1][3][25][30] - 智元机器人联合创始人稚晖君参与上纬新材董事会,公司公众号发布机器人相关图片后,上纬新材股价单日涨停,市场反应剧烈 [4][5][12] - 上纬新材原为新材料公司,收购后业务方向引发关注,但公司强调具身智能业务仍处开发阶段,尚未实现量产及规模化销售,对2025年业绩影响有限 [20][27][43][44] 收购事件概述 - 智元机器人通过协议转让加要约收购组合方式,以总成本约21亿元获得上纬新材63.62%股权,实现绝对控股 [28][38][39] - 收购过程历时四个月,包括7月8日公布计划、9月22日协议转让完成、11月6日要约收购股份交割完成 [28][34][36][39] - 收购后上纬新材董事会改组,智元机器人CEO邓泰华成为实际控制人,稚晖君成为董事候选人 [31][40][41] 市场反应与股价表现 - 上纬新材股价从7月的7元上涨至11月11日的130元,累计涨幅达1500% [3][25] - 7月9日至7月30日期间股价累计涨幅1083.42%,成为2025年A股市场首只十倍股 [35] - 11月11日公司公众号发布机器人图片后,股价直线拉升涨停,但文章随后被删除 [5][12][15][16] 业务定位与现状 - 上纬新材原主营业务为环保高性能耐腐蚀材料、风电叶片用材料、新型复合材料等,业务架构未发生实质性变化 [33][43] - 智元机器人已推出远征、精灵、灵犀三大机器人产品线,覆盖交互服务、工业智造等商用场景 [32] - 上纬新材涉足具身智能机器人业务仍处于开发阶段,未形成营收和利润,与智元机器人独立开展业务 [20][27][44]
比0.99元羊毛更重要的,是跟AI砍价的快乐
量子位· 2025-11-12 20:07
营销活动与用户参与 - 公司推出限时营销活动,用户可通过特定话术与AI互动将Kimi Agent会员价格从49元/月砍至0.99元/月 [1] - 活动时间为双十一当天至当月25日24:00,仅限新用户享受0.99元首月优惠,老用户通过分享链接给新用户并完成支付可额外获得一个月会员权限 [18] - 用户参与砍价活动的积极性高,通过多种创意Prompt(如夸赞、古风对话、卖惨、威胁、角色扮演等)与AI互动,成功获得优惠后成就感显著 [2][4][6][8][11][12][21] 产品技术特性 - 此次砍价活动背后的AI模型为Kimi K2 Thinking,该模型在推理和Agent任务方面能力突出 [22] - 模型交互体验被用户评价为具有强烈的“活人感”,互动过程生动拟人,部分用户反馈产生对面是真实存在的错觉 [23][24] 市场反应与用户行为 - 该营销策略在社交媒体(如小红书)引发广泛分享,用户积极交流砍价成功经验与话术技巧 [1][15] - 活动有效吸引了用户深度体验产品,部分用户表示此方式避免了去其他平台购买额外服务次数,提升了产品黏性 [20] - 活动存在时效性,早期有效的Prompt注入方法后期已失效,表明公司可能对互动规则进行了动态调整 [25]
孙正义再次清仓英伟达!上一次教训“价值2500亿美元”
量子位· 2025-11-12 16:01
软银清仓英伟达 - 软银在第二季度结束后清仓了所持有的3210万股英伟达股份,套现58.3亿美元(约合人民币415亿元)[2][3] - 此次清仓正值英伟达市值突破历史性的5万亿美元大关之际[5] 资金投向OpenAI - 清仓英伟达所获资金将用于对OpenAI的追加投资[7][8][9] - 软银与OpenAI签订协议,承诺最高追加投资400亿美元,实际投资额预计为300亿美元[11] - 首次100亿美元投资已于今年4月完成,其中软银愿景基金二期出资75亿美元[11] - 软银计划通过愿景基金二期继续出资225亿美元,部分资金来自此次英伟达股票出售[11][12] 战略转向AI软件与模型 - 行业分析认为软银正在将投资重点从AI硬件转向应用交互层[14][15] - 公司认为AI领域更大的机遇在于软件和模型层面,而非硬件[16] - 软银即将进行的主要投资包括:对OpenAI的后续投资(计划于2025年12月)、65亿美元收购Ampere(计划于2025年底前完成)、54亿美元收购ABB机器人业务(计划于2026年中后期完成)以及投资Stargate项目[17] OpenAI上市计划 - 软银批准对OpenAI剩余225亿美元投资的条件是OpenAI在年底前完成重组,为上市铺平道路[19] - OpenAI已于上月底完成资本结构重组,IPO指日可待[20] - 一旦OpenAI顺利上市,软银的投资将从多个层面获得回报[21] 历史清仓记录与教训 - 软银曾在2017年以40亿美元买入英伟达近5%股份,但在2019年套现36亿美元清空全部持股[23][24][25] - 若2019年清仓的股票持有至今,价值约为2500亿美元[28] - 英伟达CEO黄仁勋曾公开表示软银错失了巨额投资回报[26][27] 孙正义投资风格 - 高风险、高回报、大手笔是孙正义最鲜明的投资标签[32] - 典型成功案例包括2000年互联网泡沫时期投资阿里巴巴2000万美元,最终价值1500亿美元[33] - 其他代表性投资还包括Uber、WeWork等明星企业[33]
硅谷热议:最快语音转文字模型
量子位· 2025-11-12 16:01
产品发布与性能突破 - AI语音独角兽公司ElevenLabs发布了Scribe v2 Realtime实时语音转文本模型,被网友评价为“Next-Level” [3] - 该模型实现了150毫秒的超低延迟,其速度之快相当于人类眨眼一次的平均时长(100-400毫秒) [4][5] - 模型在FLEURS基准测试中对前30种常用语言的准确率达到93.5%,表现突出 [4][7] - 模型支持90多种语言,覆盖从主流到小众的语种,并支持PCM(8-48kHz)、μ-law编码等多种音频格式 [4][10] - 产品具备语音活动检测和手动提交控制功能,便于实现定制化的音频流处理和更高精度的微调 [10] - 即使在嘈杂环境、方言或包含专业术语的对话中,模型也能精准抓取关键词,甚至能辨别笑声类型 [9] - 实际测试显示,该模型对中文某些生活化表达(如“五月单五”)的识别尚不完美,但整体准确率较高 [12] 行业技术演进与痛点 - 实时语音转文本赛道早期以传统统计模型为主,存在识别准确率低、背景噪音下错误率常超30%、延迟普遍在1秒以上的痛点 [13] - 深度学习技术应用后,模型准确率有所提升,但多语言支持能力薄弱,主流模型仅覆盖20-30种语言,对小众语言或复杂口音适配性差 [13] - 行业长期存在“速度与精度不可兼得”的困境,直至Transformer架构在语音领域应用后才逐步缓解 [14] - Scribe v2 Realtime实现了毫秒级延迟与90%以上准确率的突破,成为该赛道新的技术天花板 [15][25] 公司背景与商业成就 - ElevenLabs成立于2022年,是一家聚焦AI语音技术的科技企业,创始团队包括前谷歌机器学习工程师与前Palantir策略师 [18][19] - 公司成立后商业进展迅速,仅用20个月营收突破1亿美元,随后10个月内进一步增长至2亿美元 [21] - 公司在2025年1月完成1.8亿美元C轮融资后,估值达到33亿美元 [22] - 公司创立之初即坚定押注语音方向,目前拥有全球Top 100的AI语音方向研究员 [23] - 公司采用灵活的组织架构,将250人团队视为20个5-10人的小团队,内部不设头衔,鼓励任何人成为关键决策者 [23] - 公司此前推出的Eleven v3文本转语音模型因支持70多种语言及自然生动的表现力已获好评 [24]