大模型性能突破 - xAI发布Grok 4 1双版本模型 其Thinking版以1483 Elo分数登顶LMArena排行榜 非推理版本以1465 Elo排名第二 超越Gemini 2 5 Pro [1] - 该模型在EQ-Bench情商测试中以1586 Elo成绩登顶 创意写作得分比上一代提升600分 幻觉率暴降3倍 [1] - xAI将后训练阶段强化学习规模扩大一个数量级 利用前沿AI智能体推理模型作为奖励模型自动优化回答质量 并对所有用户免费开放 [1] 新公司与重大融资 - 贝佐斯创立物理AI公司Project Prometheus并亲任联席CEO 公司首轮融资获得62亿美元约合人民币440亿元 员工规模已达上百人 [2] - 公司研究重点是将AI应用于机器人 药物设计和科学发现等物理任务 专注于计算机 汽车和航空航天等高技术领域 [2] - 另一位联席CEO是物理学家兼化学家Vik Bajaj 曾在谷歌X研究机构与谢尔盖·布林合作 并创立领导过多家科技创新企业 [2] 多智能体与推理系统 - 谷歌为Gemini Enterprise开发多智能体系统 该系统可扮演联席科学家角色 通过锦标赛式评估生成并排序约100个想法 [3] - 该系统允许Gemini针对单个问题持续运行约40分钟 代表L3级AI能力 每个想法都附带完整的评审报告和锦标赛表现分析 [3] - 系统核心包括"想法生成"和"联席科学家"两款智能体 用户需审查并批准计划摘要后才能启动任务 以确保巨大算力投入的合理性 [3] 机器人基础模型进展 - Physical Intelligence发布最新机器人基础模型π0 6 采用Recap方法结合演示训练 纠错指导和自主经验强化学习 提升具身智能成功率和处理效率 [4] - 该模型在执行制作咖啡 折叠衣物和组装纸箱等复杂任务时成功率超过90% 吞吐量提高2倍以上 失败率降低2倍或更多 [4] - π0 6基于π0 6改进 通过价值函数解决信用分配难题 完全使用真实世界数据训练 能够在新环境中灵活执行未知任务 [4] 模型商业化与市场表现 - MiniMax M2推出编程套餐首月价格仅为9 9元 在OpenRouter平台其token调用量已冲至全球Top5 成为调用量最大的国产模型 [5][6] - 该模型性能位列全球榜单第五 价格仅为Claude的8% TPS稳定在100以上 响应速度快且代码质量与Claude Sonnet 4 5基本持平 [6] - M2支持Anthropic和OpenAI两种标准格式 可无缝接入Claude Code和Cursor等主流编程工具 配置过程仅需5分钟 [6] 视频生成与编辑技术 - PixVerse上线V5 Fast和Modify精修功能 视频生成速度提升超过30% 生成5秒高清视频可在1分钟内完成 并支持端到端视频编辑 [7] - Modify功能支持对生成视频进行元素替换 风格修改 材质调整 光线色调和人物编辑等多维度精细化修改 无需重新生成视频 [7] - V5 Fast通过推理结构轻量化和帧间计算依赖缩短实现加速 其开发公司爱诗科技已完成1亿元人民币B+轮融资 平台累计服务用户超一亿 [7] 全模态AI应用开发 - 蚂蚁集团推出全模态通用AI助手「灵光」 支持通过自然语言在30秒内生成小应用 并可进行全代码生成多模态内容 [8] - 该助手支持输出3D数字模型 音频 图标 动画 地图等全模态信息 旨在使对话更生动 交流更高效 [8] - 「灵光」首批上线功能包括"灵光对话" "灵光闪应用"和"灵光开眼" 已同步登陆安卓与苹果应用商店 [8] AI在游戏与创意生成 - Gambo AI推出全球首个专为游戏开发打造的"氛围编程"Agent 用户输入一句话即可在5-10分钟内生成可商业化发布的完整游戏 [9] - 平台实现从美术资源生成 动画制作 音乐作曲 关卡设计到商业变现的全自动流水线 零代码零美术基础 纯自然语言驱动 [9] - 平台集成变现功能可自动在游戏中嵌入广告点位实现"发布即盈利" 但目前仅支持2D平台跳跃类游戏 复杂关卡可能需要手动微调 [9] 气候预测与科学计算 - 谷歌DeepMind推出WeatherNext 2气候预测模型 其生成预报的速度提升8倍 分辨率最高可达1小时 单次预测在单个TPU上耗时不到一分钟 [10] - 该模型采用功能生成网络新方法 可从单个起点预测数百种可能的天气结果 在99 9%的变量和预测时间上超越前代模型 [10] - 预报数据已在Earth Engine和BigQuery中提供 谷歌云Vertex AI平台推出定制模型推断抢先体验项目 并已升级搜索和Gemini等产品 [11] AI行业投资与市场趋势 - CB Insights报告显示2024年AI Agent创业公司融资总额达38亿美元 是2023年的三倍 Voice AI成为增长最快赛道 2025年已融资4亿美元 [11] - Coding AI Agents领域领跑 Cursor以5亿美元年度经常性收入居首 Customer service AI的估值倍数高达219倍 远超80倍的平均水平 [11] - 推理模型使输出Token量激增20倍导致成本倒挂 2025年已发生超过35起收购案 Agent监控工具成为企业级新刚需 [11]
腾讯研究院AI速递 20251119
腾讯研究院·2025-11-19 00:01