Workflow
量子位
icon
搜索文档
“特斯拉延期交付机器人是卡在灵巧手上,中国灵巧手遥遥领先”| 灵心巧手@MEET2026
量子位· 2025-12-17 18:00
编辑部 整理自 MEET2026 量子位 | 公众号 QbitAI 从夹爪到灵巧手,具身智能操作正在从简单的抓取迈向真正可泛化的灵巧操作。 就在特斯拉人形机器人因灵巧手,整体延期交付,卡在"手"上时,灵心巧手联合创始人 张延柏 却表示: 灵巧手是不依赖人形机器人的终端,在一些场景能比机器人更早应用,但光有硬件不够,还要有算法。 换句话说,灵巧手不是人形机器人的附属部件,而是具身智能的核心执行平台。 它不依赖人形本体,可率先进入工业与家庭场景;它是软硬一体的平台,决定了机器人是否具备真正的泛化能力;同时,它也是门槛最高、生 态最深的关键部件之一。 在他的判断中,一只好的灵巧手既要有高自由度、高耐用性、高性价比和多模态感知,还得软硬结合,为不同场景定制解决方案,具备稳定 性。 为了完整呈现张延柏的思考,在不改变原意的基础上,量子位对演讲内容进行了整理编辑,希望能提供新的视角与洞察。 MEET2026智能未来大会是由量子位主办的行业峰会,近30位产业代表与会讨论。线下参会观众近1500人,线上直播观众350万+,获得了主 流媒体的广泛关注与报道。 核心观点梳理 灵巧手是具身智能的核心零部件之一,一方面灵巧手可以不依 ...
腾讯调整大模型组织架构:姚顺雨加盟,向总裁刘炽平汇报
量子位· 2025-12-17 18:00
henry 发自 凹非寺 量子位 | 公众号 QbitAI 官宣了。 就在刚刚,量子位获悉,腾讯内部宣布了大模型组织架构调整,而 姚顺雨 也首次被明确了加盟。 姚顺雨是谁? 前OpenAI研究员、清华姚班学霸、普林斯顿博士、NOI奥赛银牌、安徽省高考探花,是近几年大模型 Agent 方向最受关注的青年研究者之 一。 只有28岁。 他是Tree of Thoughts(思维树)、ReAct等工作的作者,也是SWE-bench、SWE-agent等一系列知名研究的核心贡献者。 去年一篇《AI下半场》的博文,让他在学界与产业界迅速出圈;而今年9月从OpenAI离职后,他的去向也随之成为各大 AI 公司关注的焦 点,一度引发诸多猜测。 如今,一切尘埃落定—— 姚顺雨确定加盟腾讯,双重身份: 第一, "CEO/总裁办公室"首席AI科学家 ,向 腾讯总裁刘炽平 汇报; 同时兼任AI Infra部、大语言模型部负责人,向技术工程事业群总裁卢山汇报。 腾讯内部官宣说了啥 姚顺雨内部官宣加盟的消息,是随着腾讯AI组织架构一起披露的。 新成立AI Infra部、AI Data部、数据计算平台部,全面强化其大模型的研发体系与核心能 ...
全球功能最全的视频生成模型来了
量子位· 2025-12-17 18:00
坏了,阿里这波是冲着Sora 2去的! 刚刚,阿里发布了新一代 通义万相2.6系列模型 ,一次性覆盖 文生视频 、 图生视频 、 参考生视频 ,以及 图像生成 和 文生图 ,是目前全 球功能最全的视频生成模型。 在视频创作上,万相2.6不仅推出了Sora2目前还没有的 多 音频驱动生视频 能力,还同步引入了音画同步、多镜头叙事等能力。 梦瑶 发自 凹非寺 量子位 | 公众号 QbitAI 像下面这个超火的一刀切ASMR,就是通过文本+音频直接驱动出来的: 再看这个由 文本+图像+音频 驱动的小猫沉浸式吃播,咀嚼声和嘴部动作基本能卡在点上,吃得那叫一个香: 文生图这条线也同步补强了,万相2.6在艺术风格控制、真实感人像、中英文长文本生图以及历史文化IP语义理解等方面的创作能力也都有明 显提升,效果be like: 本着啥都测测的原则,我也专门用不同Prompt和参考素材实测了一轮,总的来说: 万相2.6在音视频参考、声画同步、风格理解方面表现确实不错,但在个别场景下仍会出现画面逻辑偏差的小问题,不过对日常短视频和二创 来讲,已经是可用且好用的水平了。 模型到底表现如何,咱们边唠边测~ 视频生成能力一手实测 实测 ...
摩尔线程算法一鸣惊人,图形学顶会夺银!已开源
量子位· 2025-12-17 17:07
允中 发自 凹非寺 量子位 | 公众号 QbitAI 12月17日,在香港举办的全球图形学领域备受瞩目的顶级学术盛会SIGGRAPH Asia 2025上, 摩尔线程 在3D Gaussian Splatting Reconstruction Challenge (3DGS重建挑战赛) 中凭借自研技术 LiteGS 出色的算法实力和软硬件协同优化能力,斩获大赛 银奖 。 这再次证明了,摩尔线程在新一代图形渲染技术上的深度积累与学术界的高度认可。 3DGS:下一代图形渲染的范式革命,开启AI加速的高效渲染时代 3D Gaussian Splatting (3DGS,三维高斯溅射) 是在2023年被提出的一项革命性3D场景表示与渲染技术,以可参数化的3D高斯分布为 核心,实现了画质、效率与资源占用之间的卓越平衡。 与传统NeRF相比,3DGS在保持逼真渲染质量的前提下,将渲染效率提升数百至上千倍,并在 光线追踪、VR/AR实时渲染、多模态融合 等 方向展现出极强的适应性与扩展性。 △ 上图仅作示意 作为近年来快速发展的神经渲染技术,3DGS不仅在三维重建与实时渲染等方向展现出卓越优势,也在更广泛的AI场景中具备潜 ...
大模型的进化方向:Words to Worlds | 对话商汤林达华
量子位· 2025-12-17 17:07
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 李飞飞 团队最新的空间智能模型 Cambrian-S ,首次被一个国产开源AI超越了。 从这张展示空间感知能力的雷达图中,一个名为 SenseNova-SI 的模型,它在多个维度上的能力评分均已将Cambrian-S给包围。 而且从具体的数据来看,不论是开源或闭源,不论是2B或8B大小,SenseNova-SI在各大空间智能基准测试中都拿下了SOTA的成绩: | Model | vsı | MMSI | MindCube-Tiny | ViewSpatial | SITE | | --- | --- | --- | --- | --- | --- | | Open-source Models (~2B) | | | | | | | InternVL3-2B | 32.9 | 26.5 | 37.5 | 32.5 | 30.0 | | Qwen3-VL-2B-Instruct | 50.3 | 28.9 | 34.5 | 36.9 | 35.6 | | MindCube-3B-RawQA-SFT | 17.2 | 1.7 | 51.7 | 24.1 | 6. ...
让大模型“吃一堑长一智”,南理工百度等提出模型记忆新方法
量子位· 2025-12-17 17:07
ViLoMem团队 投稿 量子位 | 公众号 QbitAI 多模态推理又有新招,大模型"记不住教训"的毛病有治了。 南京理工大学联合百度等单位提出新方法ViLoMem,通过构建 视觉流+逻辑流的双流语义记忆 ,让模型像人一样把视觉陷阱和推理错误分开 存档,做到真正的"从错误中学习"。 在六个多模态基准中,ViLoMem让GPT-4.1 在MathVision上暴涨+6.48,小模型Qwen3-VL-8B在MMMU上提升 +4.38。 而且不需要任何微调,强模型积累下来的记忆还能直接迁移给小模型,起到类似"免费知识蒸馏"的效果。 整体来看,ViLoMem 做了三件关键的事: 在不改动大模型参数的前提下,ViLoMem能在多个多模态基准上稳定拉升表现,尤其是在需要精细视觉理解的数学与真实场景推理任务上, 为构建真正"会从经验中长记性"的多模态智能体提供了一条很有潜力的道路。 大模型的"金鱼记忆" 但人类并不是这样记忆的。 认知科学研究表明,人类的语义记忆天生就是多模态整合的,既会记住"这道题要用勾股定理"(逻辑规则),也会记 "这个角看着像直角其实 不是"(视觉经验)。 ViLoMem正是沿着这个方向,把视觉和逻 ...
挖掘注意力中的运动线索:无需训练,解锁4D场景重建能力
量子位· 2025-12-17 17:07
VGGT4D团队 投稿 量子位 | 公众号 QbitAI 如何让针对静态场景训练的3D基础模型 (3D Foundation Models) ,在不增加训练成本的前提下,具备处理动态4D场景的能力? 来自 香港科技大学(广州)与地平线(Horizon Robotics) 的研究团队提出了 VGGT4D 。该工作通过深入分析Visual Geometry Transformer (VGGT) 的内部机制,发现并利用了隐藏在注意力层中的运动线索。 VGGT4D的核心设想:能否在不进行额外训练的前提下,直接从预训练的3D基础模型中挖掘出4D感知能力? 作为一种 无需训练 (Training-free) 的框架,VGGT4D在动态物体分割、相机位姿估计及长序列4D重建等任务上均取得了优异性能。 从3D迈向4D的挑战 近年来,以VGGT、DUSt3R为代表的3D基础模型在静态场景重建中表现出色。然而,面对包含移动物体 (如行人、车辆) 的 动态4D场景 时,这些模型的性能往往显著下降。动态物体的运动不仅干扰背景几何建模,还会导致严重的相机位姿漂移。 现有的解决方案通常面临两类挑战: 计算或训练成本高: 依赖繁重的测试时 ...
量子位编辑作者招聘
量子位· 2025-12-17 17:07
AI热潮还在汹涌,但如果你还不知道如何参与……那为什么不来 量子位 呢? 我们是一家以 追踪AI新进展 为核心的内容平台,经过8年积累,目前拥有顶流影响力,广泛且备受认可的产业资源,以及时代风口的最佳观 测和学习生态位。 目前,我们有 三大方向 岗位招聘,希望你是 (或者能成为) 这三个方向的内容专家: 岗位均为全职,工作地点:北京中关村。 岗位面向: 编辑部 发自 凹非寺 量子位 | 公众号 QbitAI 加入我们,你可以获得: 以下是岗位详情: 所有岗位不同能力层级职位均在开放,欢迎结合个人履历和经验申请。 AI产业方向 岗位职责: AI产业方向 :关注基建层创新,包含芯片、AI Infra、云计算; AI财经方向 :关注AI领域创投和财报,跟踪产业链资本动向; AI产品方向 :关注AI在应用和硬件终端方向的进展。 社招:覆盖编辑、主笔、主编各个层级,按能力匹配岗位; 校招:应届毕业生,接受实习且可转正。 站在AI浪潮之巅 :第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知体系。 玩转AI新工具 :将各种AI新技术、新工具应用于工作,提升工作效率和创造力。 打造个人影响力 :通过撰写独家原创内 ...
英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它
量子位· 2025-12-17 11:38
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 英伟达低调出手收购 SchedMD ,被业界评价为:悄悄把自家的护城河拓宽了。 SchedMD是全球HPC(高性能计算)与AI领域的"资源调度王牌管家"—— Slurm 系统的核心开发商。 为啥说又挖宽了护城河? 因为这个Slurm系统,不仅全球超半数TOP500超级计算机在用、科技巨头Meta在用、Mistral和Thinking Machines等创企在用—— 就连用AMD、Intel芯片的AI公司,只要需要算力调度,也都绕不开它 …… SchedMD是干啥的? SchedMD于2010年成立,是一家专注于大规模计算任务调度技术的公司。 公司的核心资产就是开源的工作负载管理系统Slurm,这款工具能够高效分配成千上百台设备的算力资源。 无论是大模型训练、数据预处理这类AI核心任务,还是天气预报、基因测序等超算级科研工作,都需要靠它实现资源的最优分配,进而保障任 务的有序进行。 而且SchedMD的商业逻辑也很清晰: Slurm免费向全球开发者和企业开放,公司则靠提供专业工程支持、系统维护、定制化开发等增值服务盈利 。 这样的商业模式加之Slurm的技术 ...
Google全链路赋能出海:3人团队调度千个智能体,可成独角兽|MEET2026
量子位· 2025-12-17 11:38
编辑部 整理自 凹非寺 量子位 | 公众号 QbitAI 未来应该是智能体之间自主协同,解决复杂问题、自动化工作流程、自主下达任务,创建一种全新的商业模式。 MEET2026智能未来大会是由量子位主办的行业峰会,近30位产业代表与会讨论。线下参会观众近1500人,线上直播观众350万+,获得了 主流媒体的广泛关注与报道。 核心观点 初创企业在全球化过程中面临不同侧重点与挑战,Google的全链路生态在每一阶段都可以为初创企业助力,赋能高效出海。 Gemini 3是一次真正的突破,在多个权威榜单中排名第一,标志着从"辅助工具"向"自主智能体"的跨越。 谷歌主导推出了A2A协议(Agent-to-Agent Protocol,智能体间通信协议),旨在打通跨企业、跨系统的智能体协同。 商业模式正在从SaaS按月订阅转向Outcome-based按结果付费,这是智能体时代的底层逻辑变化。 3到10人的初创团队完全可能通过调度大量智能体成长为独角兽,但需要重视数据壁垒、行业深度集成以及法律合规。 初创出海的五个阶段与Google全链路解决方案 在演讲开篇, Dennis系统梳理了初创企业出海的五个阶段,以及谷歌在每个阶 ...