Workflow
人工智能科研发现自动化
icon
搜索文档
新模型组团出道,多项机器人技术开源,近期AI新鲜事还有这些……
红杉汇· 2025-10-17 08:04
AI科研发现自动化 - 西湖大学开发的AI科学家系统DeepScientist在AI文本检测任务中,仅用两周时间就取得了相当于人类科学家三年的研究进展,并在多个领域刷新纪录 [6] - 该系统实现了除目标设定外无需人工干预的科研闭环,成为首个被大规模实证研究证明能在前沿科学任务上渐进式超越人类最先进水平的AI系统 [6] OpenAI开发者大会与平台生态 - OpenAI开发者大会现场有约1500名开发者参与,线上观众突破数万,平台已聚集400万开发者,ChatGPT周活跃用户达8亿,API每分钟处理近60亿token [8] - 大会发布多款开发工具,包括Apps SDK、全能工具集AgentKit和正式版Codex,同时开放Sora 2的API,其生成内容在物理规律呈现和提示一致性上显著提升,并新增同步对话、音效及现实元素注入功能 [8] 多模态图像生成模型竞争 - 腾讯的混元图像3.0在LMArena榜单登顶,得分1167,超越Google Gemini 2.5 Flash Image Preview(1151分)和字节跳动Seedream-4-2k(1144分)等26个全球模型 [11][12] - 该模型是业界首个开源工业级原生多模态生图模型,参数量达800亿,拥有64个专家网络,具备世界知识推理和极致美学表现等核心能力 [12] 机器人关键技术开源与生态 - 英伟达在机器人学习大会上开源物理引擎Newton、推理模型Isaac GR00T N1.6和世界模型Cosmos,旨在解决机器人研发中的仿真、推理和训练难题 [14] - 这一系列工具的开源有望显著缩短机器人开发周期,其中世界模型Cosmos通过文本、图像和视频提示生成多样化训练数据,减少对昂贵真实世界数据采集的依赖 [14][15] 大语言模型性能升级 - 智谱GLM-4.6总参数量达355B,激活参数为32B,上下文窗口从128K扩展至200K token,token效率提升超过30%,平均token消耗比GLM-4.5节省30%以上 [17] - 模型代码能力较GLM-4.5提升27%,在公开基准与真实编程任务中已对齐Claude Sonnet 4,整体性能超过DeepSeek-V3.2-Exp [17] 代码模型能力突破 - Anthropic发布的Claude Sonnet 4.5在权威编程基准SWE-bench Verified上取得82.0%的准确率,超过其前代Opus 4.1(79.4%)、GPT-5(72.8%)和Gemini 2.5 Pro(67.2%) [22] - 模型在复杂多步骤任务中可保持超过30小时的专注执行,正常请求拒绝率从Sonnet 4时的0.15%下降至0.02%,并同步发布了Claude Agent SDK [20][22] 视频模型零样本学习能力 - DeepMind的Veo 3视频模型展现出“无师自通”的零样本学习能力,能够处理一系列未经过专门训练的视觉任务,如边缘检测、物体分割、超分辨率等 [24][27] - 模型展现出对朴素物理规律(如刚体、软体、光的折射)和三维世界的理解能力,并能通过“帧链”能力解决复杂的视觉推理任务,有望发展为视觉基础模型 [27][28]