AI辅助科研
搜索文档
腾讯研究院AI速递 20260316
腾讯研究院· 2026-03-16 00:01
Claude模型更新与定价策略 - Opus 4.6和Sonnet 4.6模型正式全面开放100万上下文,并取消长文本溢价,所有长度统一标准计费,Opus每百万Token收费25美元,Sonnet每百万Token收费5美元 [1] - 多模态处理能力提升6倍,单次请求支持的图像或PDF页面上限从100页大幅增加至600页,API长请求可自动处理无需Beta请求头 [1] - 在MRCR v2评测中,Opus 4.6以78.3%的得分位列同级模型第一,Claude Code用户可默认开启百万上下文,大幅减少强制压缩次数 [1] OpenClaw平台迭代与安全升级 - OpenClaw 2026.3.12版本发布,控制台UI重构为模块化视图,模型“快速模式”统一抽象跨平台调用参数,并将Ollama/vLLM/SGLang迁入provider-plugin架构为生态扩展奠定基础 [2] - 新增Kubernetes部署starter方案和sessions_yield多智能体调度机制,推动平台从“能跑”向适合长期部署和生产使用转型 [2] - 修复两项高危安全漏洞:设备配对改用短时bootstrap token防止凭证泄露,工作区插件禁用隐式自动加载防止恶意代码执行 [2] Google Maps AI与3D导航升级 - Google Maps引入沉浸式3D导航,借助Street View数据和Gemini AI进行空间理解,实时高亮车道和红绿灯,并新增“透视建筑”功能以帮助复杂路口决策 [3] - 推出Ask Maps自然语言对话搜索功能,基于超过3亿个地点和超过5亿条用户评价,可处理多条件模糊需求并支持多日旅行规划和个性化推荐 [3] - 对比显示,谷歌的优势在于全球数据规模与AI语义理解,而高德则在本土场景密度和城市级数据协同上更为深入 [3] Perplexity放弃MCP协议转向CLI - Perplexity CTO宣布内部放弃MCP协议,转而使用API和CLI,Duetchat v2也删除了MCP集成,YC总裁直言“MCP sucks”,该协议正走向边缘化 [4] - MCP协议的核心问题在于线性上下文成本高,每个工具的Schema和描述会挤占Agent的上下文窗口,且存在初始化不稳定、反复认证和权限管理粗糙等实用缺陷 [4] - CLI经过数十年迭代,具备可组合、可调试、人机通用的优势,LLM本身擅长使用命令行工具,无需额外抽象层即可高效完成任务 [4] 生数科技发布AI漫剧解决方案 - 生数科技Vidu Q3发布全球首个专门针对AI漫剧的解决方案,从底层算法专为漫剧量身定制,旨在解决“角色变脸、画风跳跃、分镜不连贯”等行业痛点,实现30个分镜不穿帮、非人型角色跨镜头稳定复用 [5] - 推出主体库2.0建立标准化角色资产库、提示词优化Bot可一句话生成分镜、口型分层处理实现音画同步,配合解说漫API可实现剧本直出成片 [6] - 即将上线“参考生”功能,可从参考视频学习动作运镜风格以生成原创内容,并与万兴科技联合发布“万兴剧厂”平台以推进AI漫剧工业化 [6] xAI人事动荡与战略调整 - xAI本周又有两位华人联创Zihang Dai和Guodong Zhang离职,11位联合创始人仅剩2人,2026年初的密集离职潮涉及Greg Yang、Tony Wu、Jimmy Ba等核心研究负责人 [7] - 前员工爆料xAI名为扁平实则官僚化严重,员工主动征集Grok改进建议反被冻结账号,与宣传文化严重脱节 [7] - 马斯克承认Grok编程落后竞争对手,表示“第一次没建对要从头再来”,SpaceX收购xAI后计划于2026年6月启动IPO,目标估值超过1.75万亿美元 [7] 谷歌AlphaEvolve在数学领域突破 - 谷歌AlphaEvolve一次性改进了R(3,13)、R(3,18)、R(4,13)、R(4,14)、R(4,15)五个经典拉姆齐数下界,刷新了纪录,部分纪录已尘封20年 [8] - 其核心思路是在算法空间而非图空间进行搜索,利用LLM进化代码,自动发现四大类搜索策略,其中包含人类文献中不存在的新方法 [8] - Hassabis称其为AI数学领域又一里程碑,AlphaEvolve已形成“算法优化算法”的飞轮效应,但目前仅能处理构造性下界,无法证明上界 [8] LabClaw开源AI科研技能库 - 斯坦福与普林斯顿联合开源LabClaw,这是一个面向生物医学的开源科研技能库,内含211个生产级SKILL.md文件,覆盖文献检索、数据分析、实验记录等全流程,一条指令即可在OpenClaw中调用 [9] - 可部署为Always-On Lab Agent持续读取仪器数据和实验记录,自动触发分析流程并生成报告,配套LabOS系统实现XR眼镜与实验机器人的人机协同实验 [9] - 该项目由斯坦福丛乐教授和普林斯顿王梦迪教授团队联合推出,获英伟达支持,将AI辅助科研门槛降至“一条指令”级别 [9] 人形机器人高动态运动突破 - 银河通用人形机器人联合清华大学提出LATENT方法,使机器人仅从碎片化不完美动作数据中自主学习网球技能,无需预编程即可完成多回合连续对打 [10] - 核心创新包括“运动技能空间”将零散动作整合为可组合技能、“隐空间动作屏障”确保高动态击球同时保持自然流畅动作,在成功率和精准度上全面超越基线算法 [10] - 银河通用已形成硬件-模型-生态完整闭环,产业落地覆盖工业、零售、仓储物流、医疗康养等领域 [10] AI对职业替代风险的评估 - Karpathy抓取美国劳工统计局全部342个职业数据,用LLM逐一评估AI暴露分数(0-10分),制作交互式热力图,整体加权平均风险为4.9分 [11] - Anthropic真实使用数据显示,AI暴露最高的全是白领知识型工作,高暴露群体平均时薪比低暴露群体高47%,核心规律是“工作离屏幕越近离失业越近” [11] - AI暴露高不等于立即失业,例如软件开发者虽评分8-9分但就业仍预计增长17.9%,真正危险的是需求固定且AI替代效果好的岗位如数据录入和医疗转录 [11]
科研人有自己的“吃虾”方式!斯坦福普林斯顿最新开源,仅需一行指令
量子位· 2026-03-15 12:38
LabClaw产品概述 - 产品是由斯坦福大学和普林斯顿大学团队推出的开源“科研版龙虾”工具,旨在通过AI自动化改变科研工作方式[1] - 其核心是一个包含**211个**生产级技能文件的“技能包”,供AI在研究生物医学时直接调用,用户无需自行设计提示词[9][11][12] - 使用方式极为简便,研究人员只需通过一行命令即可调动整个AI“龙虾军团”自动执行任务[3] 产品功能与核心价值 - LabClaw能自动化处理科研中的多项任务,包括盯实验数据、跑分析模型、翻文献、写实验记录等,人类只需在关键环节进行决策[3][4] - 该工具能显著提升科研效率与产出,被描述为有助于“顶刊的路子走宽了,科研人的头发保住了”[5] - 其设计理念得到了英伟达作为“Founding Partners”的支持[6] LabClaw技能库(Skill)详情 - 技能库按研究方向分类,涵盖多个生物医学及数据科学领域,具体包括:生物学与生命科学(技能数量未明确列出)、实验室操作系统与自动化(**7个**)、视觉与XR(**5个**)、药学与药物发现(**36个**)、医学与临床(**20个**)、通用与数据科学(**48个**)以及文献与检索(**29个**)[12] - 每个技能文件(SKILL.md)都会明确指导AI何时使用、如何调用以及预期产出什么结果[12] - 文章列举了典型工作流及其对应的示例技能,例如:单细胞与空间组学(anndata, scanpy)、药物发现(rdkit, diffdock)、临床精准医疗(clinicaltrials-database)、统计分析(scikit-learn)以及文献综述与写作(pubmed-search, scientific-writing)等[14] 高级应用:AI实验室助手 - LabClaw的技能可以进一步组合,被部署成一个**不会下班的AI实验室助手**(Always-On Lab Agent),长期运行于实验室环境中[18] - 该助手能持续读取显微镜、传感器或摄像头的数据流,结合图像、数据和日志自动监控实验进程,并在发现异常时触发分析、生成报告并提醒研究人员[19][21][24] - 此模式实现了从单纯工具到主动、持续协同的实验室智能体的升级[26] 生态系统:LabClaw与LabOS的协同 - 团队为LabClaw专门配备了名为LabOS的操作系统,两者结合形成一套完整的AI-XR协同科学家系统[27][28][30] - LabOS被定义为全球首个此类系统,由斯坦福大学丛乐教授和普林斯顿大学王梦迪教授团队联合推出[30] - 系统架构中,LabClaw类比为应用市场(提供各种技能APP),而LabOS则是底层操作系统[29] - LabOS集成了“大脑”(多智能体规划与推理)、“眼睛”(专属视觉语言模型LabOS-VLM,用于理解实验操作)和“身体”(XR眼镜与实验机器人),实现人机协同实验[38] - 典型应用场景是:研究人员佩戴XR眼镜启动系统,通过语音指令(如“找黑色素瘤的免疫治疗靶点”)驱动LabOS调用LabClaw中的相应技能,从而在AI指导下完成从数据分析、实验操作到论文生成的全流程协同工作[40][41] 团队背景与系统优势 - 项目负责人丛乐是斯坦福大学医学院副教授,在CRISPR基因编辑领域贡献卓著,曾在Science、Cell、Nature等顶刊发表多篇论文[34][35] - 另一位负责人王梦迪是普林斯顿大学教授、人工智能创新中心主任,是AI与控制系统领域的核心学术带头人[36][37] - 该组合系统具有良好的**扩展性**,新的科研需求可通过在LabClaw中安装新技能来满足,无需重新开发整个系统[43] - 整体而言,该系统将AI辅助科研的门槛降低到了“一条指令”的程度[45]
像挖币一样挖激活函数?DeepMind搭建「算力矿场」,暴力搜出下一代ReLU
机器之心· 2026-02-07 12:09
核心观点 - 谷歌DeepMind利用其开发的AlphaEvolve系统,在无限的Python函数空间中自动搜索并发现了全新的神经网络激活函数,这些函数在分布外泛化能力上超越了ReLU和GELU等现有标准函数,标志着AI设计AI的方法论革新 [2][4] 研究方法论革新 - 核心工具是AlphaEvolve,一个由LLM驱动的进化编码系统,它直接编写和修改Python代码来探索激活函数,突破了传统神经架构搜索受限于预定义数学算子的限制 [8][11] - 采用“微型实验室”策略,使用专门设计的合成数据来优化分布外泛化能力,避免了在ImageNet等大型数据集上进行昂贵搜索,实现了用小数据撬动大智慧 [4][14][40] - 系统的适应度函数基于分布外测试数据的验证损失,迫使模型学习举一反三,从而捕捉更本质的归纳偏置 [17][18] 新发现的激活函数及其特性 - 发现表现最佳的激活函数普遍遵循“标准激活函数+周期性扰动项”的通用公式,例如GELUSine和GELU-Sinc-Perturbation [25] - **GELUSine**:在GELU基础上增加了正弦项,引入周期性“摆动”以帮助优化过程逃离局部极小值 [26] - **GELU-Sinc-Perturbation**:公式为 `GELU(x) * (1 + 0.5 * sinc(x))`,在保留GELU渐近行为的同时,在原点附近引入了受控的非线性复杂性 [26][27] - **GMTU (Gaussian-Modulated Tangent Unit)**:结合了Tanh、高斯衰减和线性泄漏项,形状类似调制波,但计算成本较高 [28] - **湍流激活函数 (Turbulent)**:在合成数据上测试损失极低(29.8 ×10⁻³),但严重过拟合,迁移到真实任务时表现不佳,凸显了逐点激活函数的鲁棒性价值 [21][29] 在真实任务上的性能表现 - **在算法推理任务(CLRS-30)上表现出色**:GELU-Sinc-Perturbation取得了0.887的测试分数,显著优于ReLU的0.862和GELU的0.874 [34][36] - **在标准视觉任务上保持竞争力**:在ImageNet上,GELUSine和GELU-Sinc-Perturbation的Top-1准确率约74.5%,与GELU持平并远超ReLU的73.5% [34][36] - **周期性扰动的有效性**:周期性函数允许模型在训练域内“存储”频率信息,并在外推时通过周期性结构“检索”,这被认为是一种隐式的频率分析,有助于捕捉数据的复杂结构 [35] 对行业与AI研发的启示 - **代码即搜索空间**:利用LLM直接编写代码作为搜索空间,比预定义数学算子更灵活强大,LLM生成的函数甚至能提供人类可读的设计思路解释 [39] - **设计目标从拟合转向泛化**:激活函数的设计不仅为了优化梯度流动,其形状直接影响模型的归纳偏置,引入周期性结构是为模型注入“世界规律循环往复”的偏置 [40] - **预示AI设计AI的未来**:这项研究表明,在神经网络最基础的组件层面仍有巨大创新空间,未来的AI模型其底层算子可能将由AI自己书写 [42]
数学界无视「30年漏洞」,GPT-5一眼看穿,陶哲轩:AI科研革命开始了
36氪· 2025-11-05 18:52
文章核心观点 - 新闻核心观点是GPT-5在数学研究领域展现出实质性应用价值,通过辅助生成形式化证明和发现反例,推动了科学进步 [6][13][22][24] GPT-5在数学证明中的应用 - 两位数学家利用GPT-5在Lean中生成形式化证明并成功验证,最终证明超过6000行代码,包含26个定义、169个引理和4个定理 [13][16] - 人类研究者需不断提供反馈以完善论证,过程耗时约一周,在普通笔记本电脑上代码验证耗时不足半分钟 [16] - 陶哲轩认可此次AI辅助证明,认为这是在研究论文中负责任地使用LLM输出的罕见用例,强调Lean形式化仅是对人类证明的补充 [14][17] GPT-5在发现反例和解决开放问题中的贡献 - 加州大学欧文分校数学教授Paata Ivanisvili与合作者请GPT-5 Pro在公开未解问题中寻找反例,GPT-5提出了一个关于带擦除的非交互相关蒸馏问题的反例 [18][19][21][22] - UCLA数学教授Ernest Ryu借助GPT-5 Pro解决了一个凸优化领域的开放问题,尽管模型约80%的证明尝试错误,但提出了多条新颖思路,整个工作耗时约12小时 [24][27][29] - GPT-5的具体贡献包括给出最终可行的证明思路与论证框架,并通过快速排除无效路线大幅加速探索进程 [29] 行业影响与未来展望 - 此次GPT-5的应用被视为理论计算机科学中AI的“星星之火”,以往大语言模型多用于文献检索或数值辅助,而此次真正生成了具体、有限且可验证的反例 [24] - 研究者认为,如果大语言模型的接口能与Lean深度整合并进行微调,许多人机协作证明的问题将大大缓解,体验会更加流畅自然 [16] - OpenAI科学家Sebastien Bubeck复现了类似场景,表明GPT-5可以证明有趣的数学结论,并能筛选不正确论点、识别新推理思路以及决定探索方向 [43][44]
GPT-5破解世纪难题,竟是上网抄来的,哈萨比斯:太尴尬了
36氪· 2025-10-21 10:26
事件概述 - OpenAI团队宣称其GPT-5 Pro模型在一个周末内解决了10个埃尔德什难题 [1] - 后续澄清表明,这10个难题早已被科学界解决,GPT-5仅是通过检索网络文献找到了现有答案 [3][10] - 该事件被行业人士评价为一场“闹剧”和“自导自演”,引发了广泛争议 [1][6] 技术能力与局限性 - GPT-5在此次事件中展现的是文献检索能力,而非独立解决未解数学难题的能力 [3][10] - 有观点认为,尽管存在争议,但GPT-5在高效完成文献检索方面表现依然出色 [18] - 行业专家指出,人工智能在数学领域更现实的作用是使用中等水平工具辅助处理研究中的琐碎工作,而非直接攻克最难题 [19] 行业反响与评价 - 谷歌DeepMind首席执行官Demis Hassabis公开评论此事“太尴尬了” [1][3] - 图灵奖得主Yann LeCun在社交媒体上嘲讽此举是“搬起石头砸自己的脚” [5] - 研究人员明确表示其原意并非宣称GPT-5破解难题,而是通过数千条查询找到了十个问题的解 [6] 对AI科研的启示 - 开发者强调必须谨慎对待任何关于人工智能发现新科学或数学成果的说法 [15] - 行业观点认为,关于人工智能的科学发现需要更多的同行评审 [17] - 尽管需要对人工智能的原创发现保持审慎,但人工智能辅助科研被视为未来的必经之路 [20]
MIT爆火论文被曝数据造假!曾验证AI辅助科研增速44%,诺奖得主都被诓了
量子位· 2025-05-21 04:33
论文核心事件与影响 - 一篇宣称AI显著提升科研生产力的预印本论文因涉嫌关键实验数据造假,被麻省理工学院(MIT)责令撤稿[1][3] - 该论文曾引起学术圈广泛关注,被部分学者称为“AI对科学发现影响的最佳论文”,并获诺奖得主点赞[1][21] - MIT校方正式声明,对该论文数据的来源、可靠性及有效性缺乏信心,并强调论文应从公共讨论中撤回[4][5] 论文原主张的核心研究发现 - 研究通过在一家大型企业研发实验室对1018名科学家进行随机对照试验,评估AI材料发现技术的影响[9][10] - 使用AI辅助后,新材料发现量增加44%,专利申请量增加39%,下游产品创新提升17%[2] - AI自动化了57%的“创意生成”任务,使科学家能将更多时间转向评估AI建议[14] - AI的影响存在异质性:高能力科学家的产出增长81%,而底层三分之一科学家受益甚微[14] - 尽管产出提升,但82%的科学家报告工作满意度降低,主要原因为技能未充分利用和创造性减少[14] 学术调查与后续处理 - MIT纪律委员会于2025年2月初收到针对该论文的指控后启动秘密内部审查[34][35] - 指控最初由一位具备材料科学背景的计算机科学家向论文致谢中的两位教授提出,随后被提交至校方[35] - 尽管论文仍为预印本,但校方担忧其会对关于AI工具影响的学术及公共讨论产生误导[36] - 论文作者已离开MIT,且截至声明发布时,尚未配合校方敦促其在arXiv平台提交撤稿请求[6][38]