Test-time Scaling - 财报，业绩电话会，研报，新闻

Test-time Scaling

搜索文档

CVPR 2026 Workshop征稿｜从感知到推理，ViSCALE 2.0 邀你重塑计算机视觉的 System 2

机器之心· 2026-02-13 12:19

研讨会核心信息 - 第二届计算机视觉推理扩展研讨会（ViSCALE 2026）将于2026年6月在美国举办，由来自清华大学、普林斯顿大学、加州大学圣克鲁兹分校、新加坡国立大学等全球顶尖机构的学者联合举办 [2] - 研讨会旨在汇聚全球顶尖学者，共同探索如何让视觉模型通过计算扩展突破现有模型的能力瓶颈 [2] - 研讨会将采用线上线下混合模式，于2026年6月3日或4日举行，会期为半天 [9] 研讨会核心观点与研究方向 - 研讨会认为计算机视觉正站在新范式的路口，其发展路径是从单纯的像素感知，到构建符合物理规律的世界模型；从平面的模式识别，到复杂的空间推理 [2] - 研讨会关注的重点是深度推理，旨在探索模型如何在测试时动态分配计算资源，实现从“看懂画面”到“模拟世界”的跃迁，而非上一代模型的“直觉反应” [5] - 核心研究方向包括：利用测试时计算扩展提升视频生成的物理一致性与长时序因果推理能力；突破2D限制，让模型在3D空间中具备类似人类的导航与操作直觉；发展视觉思维链，让视觉模型学会反思、自我修正与多步推理；探索测试时计算量与视觉推理性能之间的扩展规律 [6] 研讨会征稿详情 - 研讨会寻求能打破现有视觉模型天花板的原创性研究，鼓励新颖观点和创意思路，接受多种类型投稿 [7] - 征稿分为两个方向：Track 1为正式论文，属于存档类型，篇幅限制为8页（不含参考文献）；Track 2为扩展摘要，属于非存档类型，篇幅限制不超过4页（不含参考文献） [9] - 投稿需使用CVPR 2026 Author Kit格式，截止日期为2026年3月10日，录用通知将于2026年3月18日发出 [9] - 具体征稿议题包括但不限于：测试时计算扩展的理论基础与高效算法、世界模型/视频生成/复杂决策中的推理扩展、具身智能与自动驾驶中的长时序空间推理、统一模型中的推理扩展问题、视觉思维链与模型可解释性、推理扩展带来的安全性/鲁棒性与幻觉问题 [9]

更多非共识，Test-time Scaling 能否一直大力出奇迹？

机器之心· 2025-12-07 09:30

Test-time Scaling 的发展现状与争议 - Test-time Scaling 通过在推理阶段动态投入更多计算资源以提升大语言模型性能已成为当前重要范式自2024年第三季度起关注度持续攀升[7] - 学术界通过“What How Where How well”四个维度系统梳理了Test-time Scaling方法其中“What”关注扩展对象如思维链长度 “How”关注扩展方法如搜索或强化学习 “Where”关注适用任务 “How well”关注效果评估[8][9][10][11] - 该范式发展已逾一年业界对其机制理解加深但在改进思路上仍存在分歧与反思[12] Sequential 与 Parallel 路线的对比与局限 - 以增加思维链长度为核心的Sequential路线曾被DeepSeek-R1等“o1-like”模型采用试图从思考深度提升模型性能[12] - 复旦大学团队研究发现更长的思维链并不能持续提高准确率因为正确答案的计算周期通常更短而长思维链包含更多自我修正反而可能导致性能下降[12] - 该研究提出了Parallel方法通过并行推理获取多个推理路径并聚合答案从思考广度提升性能作为对Sequential路线的改进方案[13] Test-time Scaling 的未来改进方向 - 随着Sequential路线方法逐渐接近瓶颈当前External路线方法（如Parallel Hybrid）非常流行[14] - 有观点认为Test-time Scaling的未来或许不在于更多计算而在于更聪明的搜索[14] - 除了关注推理密集型任务业界也开始探索Test-time Scaling的能力提升能否适配更多场景[14] Skills与MCP的生态位竞争 - 社区对于模型上下文协议（MCP）的定位仍有争议目前平均25个用户对应1个开发者其更多是开发者自娱自乐的产物[2] - Skills被指意在取代MCP 但MCP能做而Skills不能做的功能目前看来用途不大[2] - MCP的大规模落地可能需等待类似“微信小程序”的下一个入口出现[2] OpenAI的平台战略与行业洞察 - 曾被视作真理的“单模AGI”在商业现实面前已彻底梦碎[3] - 曾被预言即将消亡的“提示词工程” 已演变为更复杂的“上下文工程”[3] - 要真正掌控模型大脑必须遵从“强化微调”[3] - 在开源模型日益强大的今天 “拥有权重”并不等同于“拥有服务能力”[3] - “按量计费”可能成为AI商业化的最终形态[3]

Artificial Intelligence

Artificial Intelligence

Test-time Scaling