量子位
搜索文档
最后一周!人工智能年度榜单申报即将截止。
量子位· 2025-11-13 17:25
评选活动概览 - 2025人工智能年度榜单评选已进入第8年,申报进入倒计时阶段[1] - 评选从企业、产品、人物三大维度设立五类奖项,旨在见证推动时代前行的企业、人物与产品[1][2] - 评选报名将于2025年11月17日截止,结果将在MEET2026智能未来大会上公布[7] 企业类奖项评选标准 - 年度领航企业评选面向中国AI领域最具综合实力企业,要求注册地在中国或主营业务主要面向中国市场,主营业务属AI及相关产业或已广泛应用AI[9][11] - 参选企业需具备成熟产品或服务并获得市场认可,近一年在技术创新、产品落地、市场拓展或商业模式上取得显著突破[11] - 评选标准涵盖业务能力、技术能力、资本能力及其他综合能力,包括市场占有率、营收规模、科研实力、研发投入、融资情况等[11] - 年度潜力创业公司聚焦最具投资价值AI创业公司,要求公司未上市,拥有人工智能相关产品或服务落地并获市场认可[14][16] - 创业公司评选标准侧重业务潜力、技术创新、资本能力及核心团队构成等[16] 产品与解决方案类奖项评选标准 - 年度杰出产品评选聚焦最具代表性与影响力AI产品,产品需以AI技术为核心并具备明确应用价值,已投入市场并获得用户反馈[16][17] - 产品评选标准包括产品力与技术力、落地情况及其他综合能力,关注功能完整性、性能表现、市场占有率、用户规模等[21] - 年度杰出解决方案评选聚焦AI在不同行业与场景的典型应用,解决方案需以自主创新AI技术为核心并已落地实施[19][22] - 解决方案评选标准强调创新性、落地情况及其他综合能力,包括技术融合能力、应用模式创新、市场占有率、客户情况等[22] 人物类奖项评选标准 - 年度焦点人物评选面向中国AI领域新星与领军人物,要求国籍为中国或所属公司主体在中国,并为公司创始团队成员或核心高管[21][23] - 参选人物近一年需带领团队在AI技术或商业化方面取得显著突破,对行业发展产生重要影响,科研院所中具同等影响力个人也可参选[23][24] - 人物评选标准涵盖企业情况、个人能力及其他综合能力,包括企业行业地位、个人技术能力、商业能力、创新能力及行业背景等[31] 相关行业活动 - MEET2026智能未来大会定档2025年12月10日,主题为“共生无界,智启未来”,关注AI如何穿透产业、学科与场景边界[27] - 大会将呈现学术前沿与商业落地碰撞,展示来自Infra、模型、产品产业的领先技术成果,首批嘉宾阵容包括张亚勤、孙茂松等[28][29]
2.4万亿参数原生全模态,文心5.0一手实测来了
量子位· 2025-11-13 17:25
产品核心特性 - 全新一代文心5.0主打原生全模态,从训练伊始就将语言、图像、视频、音频置于同一套自回归统一架构中进行统一的理解与生成训练[1] - 模型支持全模态输入(文字/图片/音频/视频)与全模态输出(文字/图片/音频/视频),在创意写作、指令遵循、智能体规划方面能力更强[1] - 预览版(Preview)当前支持全模态输入,但输出暂为多模态(文字/图片),能够实现全模态输出的完整版正在进行产品体验优化,后续将推出[15] 技术能力与性能表现 - 在官方基准测试中,文心5.0 Preview在语言、视觉理解、音频理解、视觉生成多维度表现突出[7] - 在大模型竞技场LMArena的文本排行榜(Text Arena)上得分1432,与GPT-4.5-preview、Claude-Opus-4-1、Claude-Sonnet-4-5等并列全球第二,位居国内第一[9] - 模型具备精细的多模态理解能力,能精准识别视频中的动作阶段、选手信息、动作名称、难度系数,甚至识别慢放片段和视频情感[26][27][28][30] - 具备跨模态信息整合与综合推理能力,能结合视频情节、台词等内容理解情感氛围和叙事意图,不易被单一模态误导[51] 技术架构与实现 - 采用非后期拼接的原生全模态路线,通过自回归统一结构对不同模态的训练目标进行离散化建模,使多模态特征在统一架构中融合与协同优化[63][64][66] - 引入超大规模混合专家架构,通过稀疏激活机制降低计算负载,每次推理仅激活与任务最相关的专家模块[67] - 模型总参数规模超过2.4万亿,激活比例低于3%,在保持性能的同时显著优化了计算与推理效率[69] - 百度飞桨深度学习框架为万亿级参数模型的高效分布式训练和推理成本优化提供了关键支撑[69] 应用场景与功能展示 - 支持单次交互中跨文件类别混合上传文档、图片、音频、视频,经用户授权可与百度网盘关联,直接访问处理网盘文件[18][20] - 具备智能体能力,可自主调用搜索工具进行信息查询与角色定位[36] - 支持文图混合输入生成新图,并能对视频、音频内容进行快速总结,一次性最多可上传10个视频进行多任务内容整理[53][56][57] - 能够进行音视频融合生成,例如生成3D交互式地球与卫星演示模型,用户可通过鼠标拖拽旋转视角[5] 行业定位与迭代节奏 - 行业竞争逻辑转向注重底层架构创新、训练与推理效率、落地成本等多维度综合考量[72] - 公司基础模型迭代步伐加快,4月发布文心4.5 Turbo和文心X1 Turbo,6月底文心4.5系列10款模型宣布开源,9月发布文心X1.1深度思考模型[73][74] - 文心5.0原生全模态模型的推出是公司在底层架构实现的差异化突破,体现了在算法训练、推理优化及生态协同等全链路的系统性积累[75]
Nature公开谷歌IMO金牌模型技术细节!核心团队仅10人,一年给AI编出8000万道数学题训练
量子位· 2025-11-13 13:38
核心观点 - 谷歌DeepMind在Nature上完整公开了其数学证明AI系统AlphaProof的技术细节,该系统在2024年国际数学奥林匹克竞赛(IMO)中取得金牌级表现,其核心创新在于将数学证明构建为强化学习游戏,并利用大规模自动生成的问题进行训练[1][8][26] 技术架构与训练方法 - 系统基于Lean定理证明器构建强化学习环境,将数学命题视为游戏关卡,AI通过选择策略推进证明[8][9] - 采用30亿参数的编码器-解码器transformer模型作为证明网络,同时输出策略建议和完成证明的步数估计[12][13] - 搜索算法采用受AlphaZero启发的树搜索,并引入AND-OR树结构处理多个独立子目标,以及渐进采样机制[15] - 预训练使用约3000亿个token的代码和数学文本,微调使用Mathlib库中约30万个人工编写的证明[16] - 通过基于Gemini 1.5 Pro的翻译系统,将约100万道自然语言数学题自动生成为约8000万道形式化问题,极大扩充了训练数据集[16][21] - 主训练阶段消耗约8万TPU天的计算资源[19] 关键创新:测试时强化学习 - 面对IMO级别难题时,系统会为每道题生成约40万个相关变体(如简化版、推广版),并启动独立的AlphaZero式学习过程进行专门训练[23][24][26] - 此TTRL机制使系统能针对特定难题积累洞察,是解决IMO最难题P6的关键,每道题训练需2-3天计算时间[24][26] - 比赛期间,团队最初仅凭部分证明系统判断为铜牌水平,但后台运行的TTRL在三天后陆续完成三个完整证明,最终达到金牌成绩[27][28] 团队与开发过程 - AlphaProof核心团队规模较小,大部分时间仅有约10人,临近IMO比赛时人员增加[3] - 关键突破来自IMO金牌得主Miklós Horváth提出的方法,即创建问题变体作为初始状态供智能体训练[4][5] - 团队在一年内探索多种研究思路,成功部分被整合进最终系统[7] 应用前景与局限性 - 系统已向科学界开放,数学家试用反馈显示其特别擅长找出反例,能在一分钟内证明或反证棘手的引理,有助于迭代修正数学陈述[30][31][32] - 局限性在于处理充满“定制化定义”的全新概念时遇到瓶颈,在Lean证明器策略成熟的数学子领域表现更佳[33][34] - 未来发展面临“数据有限性”挑战,需使AI能自主生成问题以实现通用性,其即时共享知识并生成训练数据的能力预示在数学领域可能远超人类[35][36][37]
IDE?字节TRAE搞了个大升级,现在能全流程开发了
量子位· 2025-11-13 13:38
产品定位与核心升级 - 产品定位从传统IDE转变为集成了多智能体协同架构与全流程开发工具链的AI协作平台 [3] - 核心升级重点是从Beta版的0到1搭框架,跳跃到1到100处理复杂项目的阶段 [4] - 升级思路更贴近开发者需求,不抢主导权,旨在实现人主导、AI协作的理想开发状态 [16][18] 多智能体协作架构 - 新增SOLO Coder智能体,专门解决修改已有仓库代码和重构架构时AI生成代码不贴合业务或理解不了复杂项目结构的问题 [5][6] - Plan模式在写代码前先与开发者厘清开发方案,包括代码改动清单和阶段目标拆分,避免方向性错误 [8] - 支持调度多个子智能体(如重构助手、性能优化助手)协同工作,并能通过手动或智能方式创建自定义智能体 [10] - 在执行复杂任务时能清晰拆分和隔离精细化任务,减少上下文污染问题 [9][11] 界面效率与操作优化 - 采用三栏布局,将多任务列表、对话流、工具面板分开,便于多任务并行推进和随时查看进度 [12] - 工具面板直接集成数据库、部署、设计稿等常用工具,减少在不同应用间切换的无效操作 [13] - 在长上下文场景中,对话流窗口可自动折叠冗余步骤只留关键摘要,并提供手动上下文压缩功能以节省Token [13] - 提供代码变更可视化功能,点击即可查看Diff,清晰展示AI修改的代码行和具体内容 [14]
李飞飞3D世界模型公测,网友已经玩疯了
量子位· 2025-11-13 13:38
产品发布与市场反响 - 李飞飞创立的World Lab公司发布全新3D世界生成模型Marble,并开启公测,人人可玩[1][3] - 该模型发布后迅速获得好评,用户使用简单,并在社交媒体引发刷屏现象[7][15] - 模型支持通过文本、照片甚至短视频轻松生成可编辑、可下载的专属3D世界,大幅降低使用门槛[4][35] 核心技术功能与特性 - Marble支持通过简短的文本提示、单图提示生成3D世界,并能通过多张图片、不同视角的图片拼接成统一世界[17] - 模型内置AI原生世界编辑工具,可进行局部编辑(如移除物体、修饰区域)或彻底编辑(如交换物体、改变视觉风格、重构大片区域)[21] - 对于专业用户,团队推出原生AI工具Chisel,可直接在3D中塑造Marble世界[23] - 模型支持对已生成世界进行扩展,为特定区域添加细节,并能将任意数量的世界组合起来构建更广阔空间[25][27] 输出格式与兼容性 - 创建的世界可选择两种方式导出:导出为高斯散点(最高保真度呈现形式)或导出为三角形网格(包含低保真碰撞器网格和高质量网格)[29] - 以网格形式导出能使3D世界与众多行业标准工具兼容,便于融入下游项目[29] - 3D世界可渲染成视频,导出后的视频可进行增强,添加细节、去除瑕疵并融入动态元素[31] 战略方向与行业定位 - 作为World Lab首款商业世界模型产品,Marble的核心在于多模态功能的深度落地,支持文本、图像、视频甚至粗略3D布局等多种输入方式[34][35] - 公司未来将重点发力交互性,目标是从静态创造发展到动态交互,实现与3D世界内元素的实时互动[36][37] - 该产品方向与李飞飞强调的空间智能是AI下一个前沿领域的观点一致,旨在打造具备生成、多模态处理和交互预测能力的真正空间智能世界模型[37]
OpenAI新模型GPT-5.1发布,不跑分不刷榜,主打一个说人话
量子位· 2025-11-13 08:49
模型升级概述 - ChatGPT突然更新模型直接升级为GPT-5.1主打更智能更具对话性[1] - GPT-5.1包括两个子模型GPT-5.1 Instant面向日常对话快速响应场景GPT-5.1 Thinking用于复杂推理深入问题场景[2] - 新模型本周内向所有用户免费开放首先提供给付费用户旧版本GPT-5继续向付费用户开放三个月后下架[3] 模型性能提升 - GPT-5.1 Instant作为最常用模型在保证实用性同时以更轻松有趣回答带来惊喜[4][5] - 对比GPT-5回答理性克制GPT-5.1 Instant更像温暖好友例如压力问题回复更人性化[6][7][8] - 新模型遵循指令能力更强例如严格用六字回复而GPT-5未遵守指令[12][13][14][15] - GPT-5.1 Instant首次运用自适应推理技术自主决定思考时机在快速响应同时给出更全面准确答案[17] - 在AIME 2025和Codeforces等数学编程测试中自适应推理技术体现更明显[18] 专业任务表现 - GPT-5.1 Thinking在典型任务中比GPT-5 Thinking快两倍慢任务多思考两倍时间[20][21] - 回答专业问题更清晰减少专业术语和未定义词汇使用例如解释BABIP和wRC+时用通俗比喻补充背景[24] - GPT-5.1 Instant和GPT-5.1 Thinking本周晚些时候引入API[26] 个性化功能增强 - 自定义ChatGPT语气风格更易用提供八种预先人设选项包括专业友好直言古怪高效讽刺书呆子等风格[27] - 用户可调整回复简洁程度亲切程度易读性及表情符号使用频率[27] - 测试功能让ChatGPT主动询问用户是否希望使用特定语气或风格无需用户设置[28] - 升级重点在模型能力和个性化设置两方面[29] 用户实测反馈 - 网友实测显示更个性GPT-5.1有趣例如高效型人格对吹牛获取10吨钋直接嘲讽[30][31][32] - 对离谱问题如卖便便冰棒先劝说后建议改为巧克力恶搞冰棒体现灵活应对[33][35]
小红书提出DeepEyesV2,从“看图思考”到“工具协同”,探索多模态智能新维度
量子位· 2025-11-13 08:49
核心观点 - DeepEyesV2是DeepEyes模型的重大升级版本,实现了从“会看细节”到“能主动解决复杂问题的智能体”的进化 [3] - 该模型突破性地实现了代码执行、网页搜索和图像操作的全工具协同,解决了传统多模态模型工具调用能力薄弱和多能力协同缺失的痛点 [3][4][5][8] - 通过“冷启动+强化学习”的两阶段训练策略,模型具备了自适应推理能力,能根据任务难度动态调整工具调用策略 [37][71][72] 多工具协同能力 - DeepEyesV2能够动态选择、组合和使用工具,包括生成可执行Python代码、进行网络搜索查询和图像操作 [23][24][26] - 模型采用“推理—工具—整合”的循环工作模式,直至得出准确答案,支持在单一轨迹中动态结合代码执行和搜索 [22][25][27] - 代码执行在沙箱环境中进行,产生结构化输出;图像查询通过SerpAPI提交,返回排名前五的视觉匹配网页 [24] 性能表现 - 在团队构建的RealX-Bench基准测试(包含300个真实场景问题)上,DeepEyesV2准确率远超开源模型 [41][45] - 在数学推理任务上,DeepEyesV2(71.9)相比Qwen2.5-VL-7B(68.3)提升3.6个百分点;在MathVerse上从45.6提升至52.7,提升7.1个百分点 [48] - 在搜索任务中,DeepEyesV2在MMSearch上达到63.7,相比Qwen2.5-VL-7B Search提升11.5个百分点 [49] 训练方法论 - 采用两阶段训练策略:阶段一为冷启动,使用感知类、推理类、搜索类和CoT数据打好基础;阶段二为强化学习,通过“准确率+格式规范”双奖励机制优化工具调用 [37][38][43] - 强化学习后模型工具调用率显著下降,从冷启动阶段的90%以上降至自适应水平,表明模型学会了“按需调用”工具 [66][67] - 最优数据组合为“感知+推理+CoT”,三类数据结合后模型在感知和推理测试集上均实现最优表现 [58] 技术突破 - DeepEyesV2通过强化学习自主获得了通过代码访问API的技能,而该行为在训练数据中并不存在 [19] - 模型展现出任务自适应的工具使用模式,对于真实世界感知任务偏向使用裁剪工具,数学推理任务主导使用数学计算,搜索任务主要使用搜索工具 [62][63] - 在复杂问题解决示例中,模型能依次调用图像搜索、文本搜索和代码执行API获取雅虎金融数据并进行计算 [15][16][17]
稚晖君最新188机器人,阅后即焚
量子位· 2025-11-13 08:49
文章核心观点 - 具身智能机器人领域市场热度极高,智元机器人通过非传统并购方式获得上纬新材控股权,引发后者股价在4个月内飙升1500% [1][3][25][30] - 智元机器人联合创始人稚晖君参与上纬新材董事会,公司公众号发布机器人相关图片后,上纬新材股价单日涨停,市场反应剧烈 [4][5][12] - 上纬新材原为新材料公司,收购后业务方向引发关注,但公司强调具身智能业务仍处开发阶段,尚未实现量产及规模化销售,对2025年业绩影响有限 [20][27][43][44] 收购事件概述 - 智元机器人通过协议转让加要约收购组合方式,以总成本约21亿元获得上纬新材63.62%股权,实现绝对控股 [28][38][39] - 收购过程历时四个月,包括7月8日公布计划、9月22日协议转让完成、11月6日要约收购股份交割完成 [28][34][36][39] - 收购后上纬新材董事会改组,智元机器人CEO邓泰华成为实际控制人,稚晖君成为董事候选人 [31][40][41] 市场反应与股价表现 - 上纬新材股价从7月的7元上涨至11月11日的130元,累计涨幅达1500% [3][25] - 7月9日至7月30日期间股价累计涨幅1083.42%,成为2025年A股市场首只十倍股 [35] - 11月11日公司公众号发布机器人图片后,股价直线拉升涨停,但文章随后被删除 [5][12][15][16] 业务定位与现状 - 上纬新材原主营业务为环保高性能耐腐蚀材料、风电叶片用材料、新型复合材料等,业务架构未发生实质性变化 [33][43] - 智元机器人已推出远征、精灵、灵犀三大机器人产品线,覆盖交互服务、工业智造等商用场景 [32] - 上纬新材涉足具身智能机器人业务仍处于开发阶段,未形成营收和利润,与智元机器人独立开展业务 [20][27][44]
比0.99元羊毛更重要的,是跟AI砍价的快乐
量子位· 2025-11-12 20:07
营销活动与用户参与 - 公司推出限时营销活动,用户可通过特定话术与AI互动将Kimi Agent会员价格从49元/月砍至0.99元/月 [1] - 活动时间为双十一当天至当月25日24:00,仅限新用户享受0.99元首月优惠,老用户通过分享链接给新用户并完成支付可额外获得一个月会员权限 [18] - 用户参与砍价活动的积极性高,通过多种创意Prompt(如夸赞、古风对话、卖惨、威胁、角色扮演等)与AI互动,成功获得优惠后成就感显著 [2][4][6][8][11][12][21] 产品技术特性 - 此次砍价活动背后的AI模型为Kimi K2 Thinking,该模型在推理和Agent任务方面能力突出 [22] - 模型交互体验被用户评价为具有强烈的“活人感”,互动过程生动拟人,部分用户反馈产生对面是真实存在的错觉 [23][24] 市场反应与用户行为 - 该营销策略在社交媒体(如小红书)引发广泛分享,用户积极交流砍价成功经验与话术技巧 [1][15] - 活动有效吸引了用户深度体验产品,部分用户表示此方式避免了去其他平台购买额外服务次数,提升了产品黏性 [20] - 活动存在时效性,早期有效的Prompt注入方法后期已失效,表明公司可能对互动规则进行了动态调整 [25]
孙正义再次清仓英伟达!上一次教训“价值2500亿美元”
量子位· 2025-11-12 16:01
软银清仓英伟达 - 软银在第二季度结束后清仓了所持有的3210万股英伟达股份,套现58.3亿美元(约合人民币415亿元)[2][3] - 此次清仓正值英伟达市值突破历史性的5万亿美元大关之际[5] 资金投向OpenAI - 清仓英伟达所获资金将用于对OpenAI的追加投资[7][8][9] - 软银与OpenAI签订协议,承诺最高追加投资400亿美元,实际投资额预计为300亿美元[11] - 首次100亿美元投资已于今年4月完成,其中软银愿景基金二期出资75亿美元[11] - 软银计划通过愿景基金二期继续出资225亿美元,部分资金来自此次英伟达股票出售[11][12] 战略转向AI软件与模型 - 行业分析认为软银正在将投资重点从AI硬件转向应用交互层[14][15] - 公司认为AI领域更大的机遇在于软件和模型层面,而非硬件[16] - 软银即将进行的主要投资包括:对OpenAI的后续投资(计划于2025年12月)、65亿美元收购Ampere(计划于2025年底前完成)、54亿美元收购ABB机器人业务(计划于2026年中后期完成)以及投资Stargate项目[17] OpenAI上市计划 - 软银批准对OpenAI剩余225亿美元投资的条件是OpenAI在年底前完成重组,为上市铺平道路[19] - OpenAI已于上月底完成资本结构重组,IPO指日可待[20] - 一旦OpenAI顺利上市,软银的投资将从多个层面获得回报[21] 历史清仓记录与教训 - 软银曾在2017年以40亿美元买入英伟达近5%股份,但在2019年套现36亿美元清空全部持股[23][24][25] - 若2019年清仓的股票持有至今,价值约为2500亿美元[28] - 英伟达CEO黄仁勋曾公开表示软银错失了巨额投资回报[26][27] 孙正义投资风格 - 高风险、高回报、大手笔是孙正义最鲜明的投资标签[32] - 典型成功案例包括2000年互联网泡沫时期投资阿里巴巴2000万美元,最终价值1500亿美元[33] - 其他代表性投资还包括Uber、WeWork等明星企业[33]