少样本学习
搜索文档
锦秋基金被投星尘智能ControlVLA入选顶会CoRL | Jinqiu Spotlight
锦秋集· 2025-09-28 12:08
文章核心观点 - 锦秋基金连续两轮投资星尘智能,看好其作为绳驱AI机器人定义者和量产先行者的技术领先性与商业化潜力 [1] - 星尘智能的核心技术优势在于其独特的绳驱传动设计,模仿人类肌腱运动,实现高表现力与高安全性的结合,适用于复杂灵巧操作和人机交互场景 [1] - 星尘智能与北京通用人工智能研究院提出的ControlVLA框架入选顶会CoRL,该技术解决了预训练VLA模型在真实场景中数据稀缺与泛化不足的难题,是具身智能落地的关键突破 [1][3] 星尘智能公司概况 - 公司是业界首个量产绳驱AI机器人的企业,其Astribot S1机器人已在科研、商业服务、文娱演出及工业等多个领域落地应用 [1] - 公司结合AI大模型与具体场景探索,推动机器人行业应用加速与商业化落地 [1] ControlVLA技术框架核心突破 - 技术核心突破体现在三重设计:物体中心表示机制、ControlNet风格微调架构、双注意力结构 [2] - 物体中心表示机制通过分割跟踪任务相关物体并提取特征,让模型聚焦关键操作目标,摆脱背景干扰 [2] - ControlNet风格微调引入零初始化的KV投影层,在保留预训练模型通用先验的同时逐步整合任务特定特征,避免知识遗忘 [2] - 双注意力结构扩展交叉注意力机制以同步捕捉视觉与物体特征,提升决策精准度 [2] ControlVLA技术性能优势 - 在数据效率上,仅需10-20个演示即可在8类真实任务中实现76.7%的成功率,远超传统方法的20.8% [2][6] - 仅20个演示就能达到传统方法100个演示难以企及的80%成功率 [2] - 在泛化能力上,对未见物体和陌生背景仍能保持稳定性能,并可支撑长序列决策任务 [2] - 在落地成本上,无需依赖模拟数据或预构建模块,大幅降低机器人在家庭服务、工业自动化等场景的部署门槛 [2] ControlVLA实验验证结果 - 在涵盖刚性、软体、流体处理等8项真实世界任务的实验中,总体成功率达到了76.7%,显著超过基准方法20.8%的成功率 [12][31] - 在长时任务中,ControlVLA性能超过当前最先进的方法,成功率约为后者的3倍 [31] - 数据缩放实验显示,仅需20个演示样本,方法就能达到80%的高成功率,而基准方法需要100个以上演示样本仍无法达到该水平 [45] - 对未见过物体和背景的泛化测试中,平均成功率分别达到70.0%和60.0%,显示其强大的环境适应能力 [48] 行业影响与意义 - ControlVLA的设计思路为预训练VLA模型的高效适配提供了范式参考,推动具身智能从实验室多数据环境走向真实世界数据稀缺场景 [3] - 该框架填补了大规模VLA模型预训练与高效目标中心适配之间的空白,使机器人能够通过极少的演示样本获取复杂技能 [12] - 通过将演示样本需求降低到实际可行的水平,该技术为机器人在各类场景中的部署降低了门槛 [49]
CoRL 2025最新工作!ControlVLA:机器人看10遍就会,“通智大脑”能力再升级!
具身智能之心· 2025-09-25 17:54
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Puhao Li等 编辑丨 具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 成果简介 ControlVLA 利用现有大规模机器人操作数据集预训练VLA模型模仿人类操作动作,通过 ControlNet 风格的架构将预训练的 VLA 模型与以对象为中心的表示连接 起来,以针对具体的任务实现高效的微调(如图1所示)。具体来说,为了在不覆盖先验知识的情况下引入以对象为中心的条件,ControlVLA 对一组投影层进行 零初始化,使得它们能够逐步微调预先训练的操作策略,进而高效泛化与执行新的任务。 图1:ControlVLA预训练与微调阶段 一、研究背景 近年来,预训练VLA (Vision-Language-Action) 模型展现出极大的潜力,但要让机器人学会新任务,仍需依赖大规模、精确的动作序列。为解决这一问题,北京 通用人工智能研究院联合星尘智能等单位提出了一种物体中心表征的微调框架——Cont ...
刘璐也被Meta挖走了!华南理工校友,创造了4o吉卜力爆款
量子位· 2025-07-15 08:34
核心观点 - Meta近期从OpenAI挖角多名核心研发人员,包括GPT-4o图像生成功能的主要开发者刘璐和Allan Jabri,加速其AI人才布局 [1][5][6][30] - 刘璐作为GPT-4o"吉卜力风"的创造者,技术背景深厚,曾在谷歌参与Gemini研发并拥有多项学术突破 [2][8][16][21][23] - Meta的挖角策略聚焦OpenAI华人技术骨干,其"超级智能实验室"已吸纳至少10名华人专家,其中8人来自OpenAI [34][35][36] 人才流动 - 刘璐从OpenAI转投Meta仅入职一年,此前在谷歌DeepMind参与Gemini图像感知模块开发,并主导了GPT-4o的吉卜力风格图像生成功能 [2][21][23] - 同期被挖的Allan Jabri为GPT-4o核心架构师,曾在Meta旗下FAIR工作两年,此次属于回归老东家 [30][31][32] - Meta近期还挖走OpenAI苏黎世办公室ViT核心作者团队,持续扩大AI人才储备 [36] 技术成就 - 刘璐开发的GPT-4o吉卜力功能上线10天即吸引1.3亿用户,生成超7亿张图像,成为现象级产品 [26] - 其学术贡献包括:参与谷歌Gemini模型(论文引用5030次)、开发NAS算法评估基准NATS-Bench(引用1093次) [16] - 研究领域涵盖元学习、少样本学习及图神经网络,在NeurIPS/AAAI/IEEE TKDE等顶刊发表多篇论文 [13][17] 教育背景 - 刘璐本科以3.84 GPA毕业于华南理工大学电子科学与技术专业,曾获全国信息学奥赛省级一等奖 [8][9] - 在悉尼科技大学获机器学习博士学位,导师为AAII研究所龙国栋教授,研究隐私保护AI及设备端智能 [10][12][18] 行业影响 - Meta通过开源策略吸引OpenAI技术骨干,可能加速实现GPT级别模型的开源化 [7] - OpenAI仍保留部分顶尖华人研究员,如ICLR 2025获奖者漆翔宇、DALL-E 3贡献者Li Jing等 [41] - 人才争夺反映AI行业竞争白热化,Meta近半年已从谷歌/苹果/OpenAI等多方吸纳专家 [35][36][41]
又一华人科学家被挖走,OpenAI人才加速流失
虎嗅· 2025-07-12 18:43
核心观点 - OpenAI面临双重打击:Meta挖走两名关键研究员[3][4],谷歌截胡其拟收购的AI编程公司Windsurf[5][27] - 科技巨头人才争夺战白热化:Meta为挖角华人研究员开出数亿美元薪酬包[24][25],OpenAI被迫以股权激励防御[56] - OpenAI与微软关系紧张:微软阻挠Windsurf收购[36],并拖延其公司结构转型[41] 人才流动 - Meta新成立的超级人工智能实验室挖走OpenAI两名研究员:Allan Jabri(视觉学习专家)和Lu Liu(4o图像生成团队成员)[12][13][20] - Lu Liu为90后华人学者,研究方向涵盖元学习、图神经网络及隐私保护AI[15],其离职使Meta公开挖角的华人研究员达11名[24] - Meta为顶尖人才提供天价薪酬包:余家辉等9名OpenAI研究员获4年3亿美元,庞若鸣单笔2亿美元[24][25] - OpenAI反击招募4名新员工:包括Meta资深研究员Angela Fan及xAI/特斯拉系人才[50][52][54] 并购竞争 - OpenAI原计划30亿美元收购Windsurf以补足编码生态短板,但交易因微软反对而终止[29][36] - 谷歌以24亿美元获得Windsurf技术授权并吸纳其核心团队,CEO等将加入DeepMind开发Gemini[9][32] - 该交易采用"非收购式鲸吞"模式规避垄断风险,类似微软对InflectionAI的操作[34] 公司治理 - OpenAI转型为PBC公益公司受阻:微软拥有对重大事项的实质否决权[39],双方因AGI条款(千亿美元利润分成)僵持[40][41] - 若2025年10月前未完成转型,66亿美元融资中的6.6亿美元将转为负债[42] - 公司2024年股权激励达44亿美元(营收37亿美元的119%),为2023年的5倍[56] 行业动态 - AI竞赛加剧:谷歌/Meta/xAI持续迭代模型,OpenAI的GPT-5却多次延期[44] - 人才成本飙升:Meta将顶级研究员年薪推至数亿美元量级[24],OpenAI被迫跟进导致股权激励超营收[56] - 技术路线曝光:Lu Liu的研究显示OpenAI在少样本学习/边缘计算AI的布局[15],Windsurf交易反映其对编码RLHF数据的渴求[29]
对话阶跃星辰段楠:“我们可能正触及 Diffusion 能力上限”
AI科技大本营· 2025-05-20 09:02
视频生成技术现状与挑战 - 当前视频生成技术(如Diffusion模型)已能产出惊艳视觉片段,但可能触及能力天花板,真正具备深度理解能力的多模态基础模型尚在孕育中[1][5] - 阶跃星辰开源两个30B参数视频生成模型:Step-Video-T2V(文生视频)和Step-Video-TI2V(图生视频),在运动性和风格化生成方面表现突出[12][33] - 当前Diffusion视频模型Scaling Law表现不显著,30B参数模型泛化能力提升有限,15B参数可能在效率与性能间取得更好平衡[5][26] 下一代技术发展方向 - 未来1-2年内可能出现视觉领域的"GPT-3时刻",带来革命性突破[4][36] - 技术突破方向包括:自回归(AR)与Diffusion模型融合架构、从映射学习转向因果预测学习范式、增强少样本学习能力[5][21][45] - 视觉基础模型需具备深度理解能力而非仅像素生成,需借鉴NLP领域成功经验,通过生成方式获得更强理解能力[19][32] 行业实践关键因素 - 高质量自然数据是核心瓶颈,需大规模多样化真实数据而非合成数据,数据处理复杂度极高[14][16][32] - 系统支持与多团队协作至关重要,阶跃星辰项目成功得益于强大系统团队支持[17][18] - 模型需平衡上限探索与易用性,30B参数模型因体积过大影响实际应用,未来需大小模型并行发展[28][29] 多模态与AI应用前景 - 视频理解能力进步将推动具身智能、机器人等需要物理交互的AI应用发展[14][37] - 多模态模型将向物理世界感知发展,增强动作理解等能力,2025年可能出现图像与文字理解生成的重要突破[56][49] - AIGC趋势包括视频长度延长、编辑能力提升、基于参考的生成技术发展,未来将降低内容创作门槛[38][44] 技术里程碑与行业参考 - 近五年AI重大创新包括BERT、GPT-3、ChatGPT、Sora等,确立不同领域技术范式[15] - 视觉领域可能处于NLP中BERT之后、GPT-3之前的阶段,需经历类似发展过程[32] - DeepSeek系列模型因性能优异且实用性强,成为国内行业重要参考[15]