Workflow
语言
icon
搜索文档
NVIDIA最新!ThinkAct:复杂的具身任务中实现少样本适应、长时程规划
具身智能之心· 2025-07-24 17:53
核心观点 - ThinkAct提出了一种双系统框架,通过强化视觉潜在规划将高层推理与低层动作执行连接起来,显著提升了复杂具身AI任务中的少样本适应、长时程规划和ego修正能力 [4][9] - 该方法通过动作对齐视觉奖励(目标奖励和轨迹奖励)引导MLLM生成具身推理planning,并将其压缩为视觉planning潜变量,为下游动作模型提供条件 [14][17][18] - 在机器人操作和具身推理基准测试中,ThinkAct表现优于现有方法,如在SimplerEnv上比基准动作模型DiT-Policy最高提升16.9%,在LIBERO基准上以84.4%成功率位居榜首 [25][26] 方法架构 双系统设计 - 高层推理系统:MLLM生成具身推理planning,通过强化学习(GRPO)优化,奖励函数结合目标完成度(r_goal)和轨迹一致性(r_trail) [12][19][20] - 低层执行系统:基于Transformer的动作模型以视觉planning潜变量为条件,实现异步"慢思考-快控制"执行模式 [21][22] 关键技术 - 动作对齐视觉反馈:目标奖励(式1)评估起始/结束位置匹配度,轨迹奖励(式2)通过DTW距离规范轨迹分布 [17] - 强化微调:采用GRPO算法,从M组响应中选择最优解,KL散度约束防止模型偏离原始分布 [19] - 潜变量压缩:将文本推理抽象为紧凑的视觉planning潜变量,捕捉时空规划意图 [20][23] 性能表现 定量结果 - 机器人操作: - SimplerEnv-Google-VM任务中Pick Coke Can子任务达到92%成功率,比Magma提升8.3% [25] - LIBERO-Long任务成功率70.9%,显著优于CoT-VLA(69%)和DiT-Policy(57.6%) [25] - 具身推理: - EgoPlan-Bench2总体得分48.2%,超越GPT-4V(32.6%)和Qwen2.5-VL*(45.7%) [27] - RoboVQA的BLEU-4得分52.4%,比次优方法高4.4分 [27] 定性优势 - 长时程规划:将"拿起书放入后部隔间"分解为3个子任务,可视化轨迹显示gripper严格遵循推理planning [30] - Ego修正:在物体掉落场景中,通过视频context识别故障并生成重新抓取的修正planning [37] 创新价值 - 行业突破:首次实现强化学习驱动的视觉-语言-动作联合推理,解决端到端模型在长时程规划中的局限性 [6][7] - 技术复用性:潜变量设计兼容不同动作模型(如Diffusion Policy),支持跨平台部署 [21][23] - 数据效率:仅需10个演示样本即可在新环境(LIBERO-Spatial)实现9.5%的少样本性能提升 [35]
vivo自研蓝河操作系统内核开源!Rust开发新机遇来了
量子位· 2025-07-24 15:28
核心观点 - vivo开源自研蓝河操作系统内核,这是行业首个适用于嵌入式和移动设备的开源Rust内核,具备安全、轻量、通用三大优势 [1][3][9] - 蓝河内核采用Rust语言编写,从根本上解决了传统C语言在内存安全、维护成本上的长期难点 [2][16] - 公司通过开源蓝河内核和举办创新赛,推动Rust生态发展,助力国产操作系统自主创新 [4][45][46] 技术特性 安全性 - 传统C/C++系统中70%的严重安全漏洞源自内存使用不当,而Rust通过所有权和借用检查机制在编译期杜绝大部分内存错误 [14][16] - Rust运行时通过智能指针等机制确保安全高效的内存管理,避免缓冲区溢出、空指针和悬空引用等问题 [17] - 蓝河内核还采用权限控制、特权分离、模块隔离等安全设计策略,提供全面防护 [18] 轻量化 - 蓝河内核最小堆内存占用仅13KB,通过精简架构和减少依赖加快引导过程,实现"即开即用" [22][23][24] - Rust的零成本抽象特性帮助避免不必要内存开销,满足物联网等设备对低内存占用的需求 [22] 通用性 - 内核兼容ARM、RISC-V等多芯片架构,支持POSIX标准接口,便于开发者移植和重用现有代码 [26][28][31] - Rust编译器支持从嵌入式到高性能处理器的众多架构,内核代码极具可移植性 [30] 行业意义 - 国产操作系统长期依赖Linux内核,蓝河内核的突破意味着对底层系统架构话语权的重构 [42] - Rust已成为行业共识,谷歌Android、Linux社区、微软等均已引入Rust模块 [40][41] - 开源内核能吸引硬件厂商、开发者、高校共建生态,推动国产操作系统自主创新 [46] 公司战略 - vivo计划联合开放原子开源基金会和高校举办蓝河操作系统创新赛,提供Rust学习交流平台 [4][46] - 开源内核符合AI原生终端对实时性、安全性、高效资源调用的需求,为AI应用提供坚实底座 [47] - 公司在Rust语言研究、产品化落地和开源实践上已步入全球行业前列 [49]
亿级短视频数据突破具身智能Scaling Law!Being-H0提出VLA训练新范式
量子位· 2025-07-24 15:28
BeingBeyond团队 投稿 量子位 | 公众号 QbitAI 如何让机器人从 看懂世界 ,到 理解意图 ,再到 做出动作 ,是具身智能领域当下最受关注的技术重点。 但 真机数据的匮乏 ,正在使对应的视觉-语言-动作(VLA)模型面临发展瓶颈。 尽管业界已投入大量资源构建数据平台(如马斯克主导的"数据工厂"项目),现有真机数据规模仍较模型规模定律所需的 上亿级训练样本 相 差三个数量级。 △ Being-H0:基于人类视频手部数据的大规模预训练VLA模型 针对这一关键问题,北京大学&BeingBeyond卢宗青团队提出了创新性解决方案: 该研究团队 利用海量人类操作视频提取手部运动轨迹,构建了规模达亿级的训练数据集 。 其核心贡献在于提出了"物理指令微调"(physical instruction tuning)方法框架,实现了从人类手部运动到机器人动作空间的精确映射。 基于这一技术突破,团队成功训练出 首个基于人类视频手部数据的大规模预训练VLA模型——Being-H0 ,并完成了真实机器人平台的验证 实验。 这项研究发现: Being-H0:首个利用人类操作轨迹训练的大规模VLA模型 Being-H0 ...
AI的未来,或许就藏在我们大脑的进化密码之中 | 红杉Library
红杉汇· 2025-07-24 14:29
人类大脑与AI的认知差异 - 人类大脑的认知能力如想象、计划、语言等至今仍是AI难以复制的超能力 [2] - AI之父杰弗里·辛顿认为实现类人智能需模仿大脑的计算方式 [2] - 当前AI已在部分领域(如语言处理)比肩人脑,但在心智理论、物理交互等方面仍落后 [10][14] 大脑进化的五次突破 - **第一次突破(5.5亿年前)**:原始大脑通过数百神经元实现条件反射、情感和利弊权衡 [8] - **第二次突破(脊椎动物)**:强化学习通过多巴胺量化目标可能性,赋予好奇心和复杂动作能力 [8] - **第三次突破(哺乳动物)**:新皮质带来想象力与慢思考能力,类似AI的推理模型(如OpenAI o1) [9] - **第四次突破(灵长类)**:心智理论使模仿学习和长期计划成为可能,AI目前在此领域不稳定 [9][10] - **第五次突破(人类语言)**:社会化语言系统推动文明,大语言模型已展现类似抽象理解能力 [11] AI的进化路径类比 - **K1-K2阶段**:从反射式清洁到强化学习(如试错优化家务动作) [13] - **K3阶段**:新皮质芯片实现数字孪生模拟(如预判儿童行动路径) [13] - **K4-K5阶段**:心智理论与语言能力使AI理解情感意图并沟通,但物理交互仍薄弱 [13][14] 历史突变对智能发展的启示 - 哺乳动物因恐龙灭绝获得发展契机,智能突破依赖历史偶然性 [6][15] - 蓝细菌光合作用等突变事件表明,颠覆性进步常源于冗余或非常规变化 [15][16] - 下一代AI突破可能来自非线性的能力跃迁,如因果推理或直觉感知 [18] 行业技术动态 - 强化学习提升AI格局,通过奖励过程(如围棋步骤评估)优化决策 [8] - 大语言模型已实现语言解码,但心智理论与物理动作仍是研发重点 [10][14] - 最新推理模型(如DeepSeek R1)采用系统2思维进行深度评估 [9]
线下活动邀请|探索外汇、固收及贵金属领域量化交易新机遇
Refinitiv路孚特· 2025-07-24 13:12
LSEG Tick History、 LSEG MarketPsych Tick History(逐笔成交历史) 我们的数据库涵盖全球500家交易所的1亿多种工具,历史可追溯至25年前,数据超过87万亿笔成交,可助您开启无 限可能性,从而充满信心地在市场中采取下一步行动。 通过Tick History发现未来的机会 使用标准工具和我们的 Springboard,TickHistory Workbench 可帮您专注分析市场微观结构、交易策略或执 行质量。 MarketPsych分析与模型 MarketPsych提供一整套基于人工智能的自然语言处理(NLP)解决方案,包括数据源、量身定制的预测分析和模 型。LSEG与MarketPsych的独家合作利用语言分析领域的尖端技术,从实时、多语言新闻、社交媒体和金融文件中 提供数据馈送和预测性洞察,并提供一流的历史覆盖范围和市场领先的时间点数据。 主要服务 Tick History(逐笔成交历史)是我们基于云的历史实时定价数据服务,涵盖来自超过500个交易场所和第三方报价 商的场外和交易所交易工具,提供超过45PB的可用数据。每个交易场所的数据都经过标准化处理,因此可 ...
维也纳免费约饭!ACL 2025期间这场晚宴不容错过!
机器之心· 2025-07-24 12:08
在这一背景下,作为自然语言处理领域最具影响力的顶级会议之一,ACL 2025 如期而至,成为全球研究者 和技术从业者分享最新成果、探讨未来趋势的重要舞台。 Meetup 日程 活动时间: 奥地利维也纳时间 7 月 30 日 16:00-20:30 活动地点: 维也纳奥地利中心周边 活动规模: 250 人 如果您对业内热点话题感兴趣,想学习前沿新式技术和了解行业变化趋势。我们设置了青年学者 Talk、顶 尖人才 SHOW 和晚宴交流等环节,期待更多青年才俊现场共同探讨前沿技术与应用落地等关键问题,碰撞 转眼之间,时间已来到 7 月,AI 领域依旧保持着快速发展的趋势。 新的研究不断被推出,尤其是在视频生成、自主智能体等方向,多项成果相继刷新 SOTA,引发广泛关注。 想必很多从业者将前往现场参会,除了密集高强度的会议日程之外,不妨也为自己预留一些时间,参与一 场更轻松、更自由的线下交流活动「云帆・ACL 2025 AI Talent Meetup」。 这是一次聚焦前沿技术与人才对话的特别聚会,由机器之心与上海人工智能实验室、东方菁汇、 黄大年茶 思屋科技网站、蚂蚁技术研究院、全球高校人工智能学术联盟共同发起,诚 ...
五倍推理加速,激发自回归潜能,苹果新工作让LLM预测未来
机器之心· 2025-07-24 12:08
语言模型技术突破 - 语言模型近年来的显著进展主要得益于大规模文本数据的可获得性以及自回归训练方法的有效性[2] - 自回归训练框架中每个token都作为前文上下文的预测目标 无需显式标注 具有明显训练优势[3][4] - 自回归推理阶段存在顺序执行瓶颈 计算开销大 与人类表达方式存在差异[5] 多token预测创新 - 苹果研究人员开发新框架 使自回归大模型能执行多token预测 实现5.35倍代码数学任务加速和2.5倍一般任务加速[7] - 该方法通过对现有模型进行LoRA微调实现 具有开创性意义[8] - 技术突破可能大幅降低AI运行成本 使轻量设备运行强大实时助手成为可能[9] 研究方法与架构 - 研究引入特殊mask token 扩展输入序列 通过NTP和MTP两种预测模式工作[29][30] - 采用门控LoRA模块 仅更新LoRA参数与采样器头参数 保持原始解码器权重冻结[34] - 采样器MLP头结合模型潜在表示与已生成token信息 确保连贯多token输出[22][32] 实验验证结果 - 在Tulu3-8B模型上验证 编程和数学任务加速效果最显著 分别达5.35倍和5.22倍[46][47] - 知识问答领域平均加速2.38倍 对话任务加速2.52倍 安全领域最高达3.72倍[47] - 门控LoRA能保持NTP token生成质量稳定 标准LoRA则导致质量下降[39][40] 技术影响与展望 - 多token预测技术处于完全自回归与完全扩散生成之间 兼具效率与质量潜力[53] - 未来可探索预训练阶段引入该方法 或结合扩散生成方法进一步优化[53] - 该框架为推理优化带来颠覆性变革可能 显著提升大模型实用性和普及度[9][10]
ICML 2025 | 大模型能在信息不完备的情况下问出正确的问题吗?
机器之心· 2025-07-24 12:08
大语言模型主动推理研究 核心观点 - 大语言模型在被动推理(如数学推理、代码生成)表现优异,但主动推理(信息不完备场景下的动态交互推理)能力存在显著短板 [1][2] - 主动推理要求模型通过多轮交互提问获取关键信息,其核心是"提出正确问题"而非"找到答案" [4][18] - 当前顶尖模型如GPT-4o在主动推理任务中准确率仅35%,且现有方法(SFT/DPO/ToT)提升有限 [28][29][30] 研究创新 理论框架 - 首次系统定义主动推理(AR)与被动推理(PR)的本质区别:PR基于完整信息直接求解,AR需通过交互补充缺失信息 [8][14][15] - 提出AR三大核心挑战:动态提问能力、信息检索效率、迭代推理质量 [15][18] 评估体系 - 开发AR-Bench基准测试,包含三类任务:情景谜题(逻辑发散)、数字猜谜(符号推理)、诊断对话(专业交互) [20][21][22] - 采用双维度评估:结果匹配度(答案准确性)和过程质量(关键问题覆盖率/F1-Score) [25] 实验结果 模型表现 - 模型普遍存在提问质量递减现象,后期问题有效性下降38% [38][45] - 典型错误模式:宽泛提问(占比42%)、时间线误解(23%)、未利用符号反馈(19%) [49][50][51] - 模型规模与表现正相关:Llama-3.1-70B比8B版本多提取27%有效信息 [36][43] 方法对比 - 基于搜索的方法(如ToT)在数字猜谜任务提升15%准确率,但在情景谜题中无效 [38] - 微调方法(SFT/DPO)导致部分任务性能下降12-18% [30] - 人类表现显著优于模型,在诊断对话任务中F1-Score高出41% [34][37] 未来方向 技术突破 - 开发高质量微调数据集(计划构建10万条AR样本) [56] - 强化学习适配(PPO/GRPO)与可靠验证器设计 [60] 场景拓展 - 医疗诊断场景的定制化代理开发 [60] - 多模态主动推理(机器人/游戏环境) [60] 注:所有数据引用自ICML 2025会议论文及AR-Bench基准测试结果 [11][20][25]
中银晨会聚焦-20250724
中银国际· 2025-07-24 09:57
报告核心观点 - 2025年7月24日的晨会聚焦报告涵盖多领域研究,包括7月金股组合、市场指数表现、行业表现,重点关注人形机器人、主动权益基金配置、AI算力产业链等方面,各领域呈现出不同的发展态势和投资机会 [1][3] 7月金股组合 - 7月金股组合包含滨江集团、顺丰控股、极兔速递 - W等10只股票 [1] 市场指数表现 - 上证综指收盘价3582.30,涨0.01%;深证成指收盘价11059.04,跌0.37%;沪深300收盘价4119.77,涨0.02%;中小100收盘价6849.74,跌0.46%;创业板指收盘价2310.67,跌0.01% [4] 行业表现(申万一级) - 非银金融、美容护理、家用电器等行业上涨,建筑材料、国防军工、机械设备等行业下跌 [5] 策略研究 - 人形机器人产业 - 2025年7月7 - 18日,人形机器人产业市场关注度显著提高,相关指数涨幅较好,易方达国证机器人产业ETF资金净流入,规模突破20亿元,年内增超10倍 [6] - 行情由订单、资本、意见领袖发言、产业、政策等多重因素驱动,如中国移动订单落地、智元收购股权、黄仁勋论断、特斯拉事件扰动缓解、工信部表态及地方政策支持等 [6][7] - 当前人形机器人进入催化密集区,受益于高低切需求,行情启动逻辑顺畅 [8] 金融工程 - 主动权益基金配置 - 2025Q2主动权益基金仓位中位数为90.63%,较上季度提升,处于历史高位 [3][9] - 板块配置上,TMT、港股和机械配置比例最高,港股、TMT、金融等板块超配,消费、周期等板块低配 [9] - 行业配置上,港股、电子、医药等行业配置比例较高,港股和电子配置比例近年攀升,食品饮料和电力设备及新能源走低 [10] - 宁德时代、美的集团等为前五大重仓股票,本期基金抱团度较上季度走低,在历史中枢附近 [10] 电子 - AI算力产业链 - 2025年AI产业链迎来闭环,步入业绩兑现期,先进AI infra平台将驱动产品迭代与供应链变革 [11] - 海外资本开支景气,推理需求增长,AI云侧基础设施建设是资本开支主要增量 [12] - 下一代AI infra新品加速演进,底层核心硬件供应链升级,GB300 NVL72性能跃升,英伟达下一代芯片架构或2026年推出 [12] - AI算力竞争引发PCB产业变革,高阶PCB产能供给或紧张,相关公司及配套材料有望受益 [13]
大模型模型取得国际奥数竞赛金牌级成绩
科技日报· 2025-07-24 08:07
AI模型在数学竞赛中的表现 - 谷歌旗下深度思维公司和OpenAI的AI模型在国际数学奥林匹克竞赛(IMO)中首次取得金牌级成绩 [1] - IMO被视为AI系统数学推理能力的试金石 深度思维去年开发的"阿尔法证明"和"阿尔法几何"AI模型曾取得银牌级成绩 [1] - OpenAI新型AI系统在4.5小时内正确解答6道IMO题目中的5道 深度思维的"双子座深度思考"系统也取得同样成绩 [1] 技术实现方式 - 与去年使用"精益"编程语言不同 今年两大团队的模型均采用自然语言处理技术 [1] - 深度思维的"双子座深度思考"采用强化学习方法 这是谷歌在"阿尔法零"等AI游戏上取得成功的关键技术 [1] - OpenAI仅透露运用了强化学习与"实验性方法" 技术细节尚未公开 [1] 专家评价 - 菲尔兹奖得主陶哲轩认为这一进展令人振奋 但需要可复现的研究数据支撑 [2] - IMO金牌得主约瑟夫·梅耶指出自然语言证明虽具可读性优势 但冗长论证可能带来验证困难 [2]