鲁棒性
搜索文档
10亿红包“开撒”,马化腾打响AI突围战
36氪· 2026-02-02 17:53
腾讯AI助手“元宝”的营销攻势与市场策略 - 公司于2月1日启动总额高达10亿元的春节红包活动,活动迅速引爆社交媒体并登上微博热搜榜首 [1][2] - 红包活动设计深度捆绑微信、QQ等社交关系链,通过分享裂变在春节高频社交场景中激活AI应用需求 [5] - 该策略短期内效果显著,推动“元宝”在苹果中国区App Store免费榜排名上升5位,登顶榜首,取代了此前已连续霸榜16天的字节跳动“豆包” [8] 腾讯AI生态的深度整合与产品布局 - 除红包外,公司正将“元宝”深度植入微信生态,如在微信公众号评论区部署问答入口,用户可直接@元宝基于文章内容提问 [6] - 公司已上线名为“元宝”的微信号,用户可像添加好友一样将其添加至通讯录,进行模拟真人对话的即时交互 [6] - 公司探索“元宝派”功能,试图将元宝转变为能参与聊天、设定提醒、协同工作的“AI版微信群” [13] 腾讯在AI领域的人才储备与技术强化 - 春节前夕,公司引入顶尖AI人才、95后清华博士庞天宇,其将于2月4日入职腾讯混元多模态部,主要研究方向为多模态模型的强化学习 [9][11] - 庞天宇在机器学习、深度学习及鲁棒性研究方面有深厚积累,其研究有望助力混元模型解决“精准、稳定执行用户复杂意图”的挑战 [11] - 此次引入是继2025年12月引入前OpenAI高级研究员姚顺雨后的又一关键布局,旨在重构研发团队并强化大模型与产品的协同 [9][11] AI助手市场的竞争格局与行业挑战 - 当前AI助手市场竞争已进入白热化阶段,用户选择多样,转换成本高,公司从零构建用户习惯面临巨大挑战 [13] - 竞争对手采取差异化策略:阿里“千问”凭借强大电商生态打造商业服务智能体;字节“豆包”主打拟人化情感陪伴并曾连续登顶应用商店榜首 [14] - 行业分析指出,通用助手赛道下一阶段的决胜要素将升级为生态协同与场景渗透,关键在于将AI深度嵌入现有产品矩阵以形成闭环和数据飞轮 [15] 关于AI应用可持续性与商业化前景的思考 - 红包营销虽能短期提升曝光与下载,但行业普遍面临用户尝鲜后打开率下降、获客成本高企及“下载后难以留下”的经典困境 [1][6][13] - 行业趋势显示,营销热潮退去后,关注点将集中在AI的投入产出比、商业化验证以及实际解决业务和盈利兑现的能力 [16] - 公司董事会主席曾表示,未来产品融入AI的核心思考点是帮助用户节省时间、提高效率 [10]
早已“破圈”的庞天宇, 能带领腾讯混元“破圈”吗?
36氪· 2026-01-31 13:03
腾讯AI人才引进与组织策略 - 公司近期引入第二位95后顶尖AI科学家庞天宇,其将担任腾讯混元大模型团队首席研究科学家及多模态强化学习技术负责人 [1] - 此前公司已引入前OpenAI研究员姚顺雨,其担任CEO首席科学家、AI Infra部和大语言模型部负责人,庞天宇与姚顺雨在分工上非从属关系 [1] - 公司通过社交媒体等“网红”风格操作吸引人才,成为AI行业近年来的风向 [2] - 公司CEO马化腾在员工大会上强调“稳扎稳打”,同时亲自为“元宝派”AI社交玩法站台,并推出春节10亿元现金红包活动抢夺C端市场 [3] - 公司在AI业务上呈现出新叙事:产品上用元宝和混元冲锋,组织上招募姚顺雨、庞天宇等95后顶尖人才,将“少年英雄”推到台前 [3] - 公司通过“青云计划”面向全球招募2024–2026年毕业的博士及2025–2026年毕业的本硕生,提供师资、算力和高竞争力薪酬,以吸引青年AI人才 [17] - 公司AI人才策略变化明显,更明确将AI人才视为技术竞争核心力量,并加大了对原生AI人才的吸引力度,通过年轻化力量重构研发团队 [17] - 公司开始树立一批如姚顺雨、庞天宇等年轻的带头人作为团队标识,以对外释放更年轻、更具进攻性的面孔,打破路径依赖、重塑AI叙事 [18] 庞天宇的背景与研究专长 - 庞天宇为清华大学计算机系博士、前新加坡Sea AI Lab高级研究科学家 [1] - 其于2021年以清华博士生身份参与综艺《燃烧吧!天才程序员》,成为少数被公众熟知的青年AI研究员之一 [3] - 其高一获得清华大学保送资格,2022年博士毕业后加入Sea AI Lab [6] - 其作为第一作者或共同第一作者,在ICML、NeurIPS、ICLR等国际顶级机器学习会议发表大量论文,参与研究总引用超过1.4万次 [6] - 其研究方向覆盖可信机器学习、深度生成模型与鲁棒性(robustness)领域,长期关注模型在复杂环境下的稳定性与鲁棒性问题 [7] - 其在ICML2022的论文中提出SCORE(自洽鲁棒错误率)新定义,实验显示模型可在保持高准确性的同时兼具更稳定的对抗鲁棒性 [7] - 最近两年其研究重点延伸至大模型与多模态系统在真实部署中的风险问题,2024年参与发表的论文系统性展示了多模态大模型Agent化后可能出现的安全放大效应 [8] - 该工作首次将“大模型越狱”从单模型问题推进到多智能体系统层面,并给出可复现实验路径 [9] - 其研究覆盖生成、理解与系统层问题,技术完整度与腾讯当前混元体系需求高度契合 [9] 腾讯混元多模态业务现状 - 混元的多模态部门是去年架构重组后的产物,涵盖生图、视频、3D生成(单体/世界模型)等多个领域 [10] - 生图部分,混元图像已更新到3.0(HunyuanImage3.0-Instruct),推出图生图版本并开源,更突出对复杂指令的理解与执行 [10] - 视频生成方面,2025年公司围绕混元视频系列持续补充了图生视频、定制化生成等能力,并优化推理与部署方案 [11] - 3D是公司多模态布局中更具长期指向性的方向,公司已正式发布并开源混元3D世界模型,能从文本或图像生成可漫游三维场景 [11] - 混元3D系列在2025年持续迭代,同时配套推出面向生产流程的工具产品,强化几何精度、可控性与结果复现能力 [12] - 混元多模态在图片、视频、3D生成全方位推进的同时,在生态上全面开源,试图在开发者社区扩大影响力 [12] - 混元3D系列在 Hugging Face社区的下载量超过百万次,在开发者群体中受到关注 [12] - 混元发布的大语言模型(如 Hunyuan-Large、Hunyuan-A13B 等)在业内声量上落后于自家的多模态生态 [12] - 当前混元多模态面临的核心问题从“能生成什么”转向能否稳定地按用户意图完成复杂任务,具体挑战包括图生图的区域误伤与风格一致、视频生成的运动自然与长序列控制、3D生成的几何精度与流程复现等 [12] - 混元3D负责人郭春超曾表示后续重要优化方向是降低用户使用门槛,如帮助用户做更多prompt改写或提供“文+图”等多模态输入,使可控性更契合用户想法 [13] 庞天宇的潜在职责与业务影响 - 庞天宇的加入可能为混元补强多模态强化学习与模型行为边界研究的能力,旨在提升多模态场景下模型输出的稳定性、跨模态生成与理解任务的优化 [16] - 随着公司释放更多补强C端AI业务的信息,优化多模态模型的紧迫性进一步提升 [13] - 公司上线“元宝派”多人社交形态探索,并配套春节10亿元红包玩法,把AI助手从单人对话拉向群体场景和高频社交分发,元宝中的多模态能力将迎来海量用户检验 [13] - 相比B端场景,C端场景下模型输出的稳定性要求会显著提高,更考验模型的可靠性 [16] - 庞天宇长期关注的模型鲁棒性与在复杂环境下的稳定性问题,对多模态系统和智能体在真实产品中的可靠运行至关重要 [7] - 其研究取向带有明显的工程和产品导向,与公司近期不断强化多模态与Agent的背景高度契合 [7] 行业竞争与腾讯的AI战略调整 - 字节跳动增长员工薪酬与年终奖金预算,将奖金总池提升约35%,并提高薪酬调整预算以增强AI业务的薪资竞争力 [18] - 阿里巴巴秋招中AI岗位占比超过六成,明确把AI技术人才作为重点增长方向 [18] - 在C端层面,腾讯的元宝既没能压制豆包和DeepSeek,甚至在部分声量与活跃度上被后来者千问反超 [18] - 公司CEO马化腾指出ChatGPT、DeepSeek等产品改变了行业进程,但公司要坚持以“产品长期竞争力和用户体验”为核心的路径 [17] - 公司AI业务需要摆脱“旧形象”,通过从核心团队成员开始调整,对外释放更年轻、更具进攻性的面孔,成为打破路径依赖、重塑AI叙事的必要选择 [18] - 代表未来生产力的AI行业,在叙事逻辑上需呈现“新瓶装新酒”,27岁的公司需要一批“少年英雄”为3岁的混元讲好AI故事 [20]
AI时代,法律随笔如何写?
新浪财经· 2026-01-25 04:40
文章核心观点 - 法律并非孤立领域,法学无法实现学科自治,这是一种“孤岛幻觉”,需要在更广泛的参照系中发现深层逻辑 [1] - 学习的捷径是“绕远”,“博”与“精”并非对立,而是正相关,通过建立跨领域联结才能触及更深层逻辑 [1] - 在AI时代,知识不再稀缺,元认知(关于认知的认知)变得比知识本身更重要,清醒地保持知识盲区是一种进取的认知战略 [1] 跨学科研究方法论 - 解释法律现象需要超越法律专业术语,使用如“策略性适应”、“噪声冲击”、“制度鲁棒性”等更广泛的科学概念才能与整个科学领域对话 [1] - 仅在一个狭窄领域(如只研究“意思表示”)深耕难以真正精通,这类似于信息论中只研究信号发送而不考虑信号接收 [1] - 所谓的“深耕”有时会将精力消耗在不重要的细枝末节上,例如厘清罗马法与德国民法典在“意思表示”上的细微差别,其实际价值有限 [1] 对法律规则与正义的解读 - 法律偏爱硬性规则的原因并非简单的“不能轻易开口子”,深层逻辑在于通过容忍一定概率的错误后果来控制法律实施成本 [1] - 法律人常说的“实质正义有时要让位于形式正义或程序正义”存在解释缺口,因为各种正义未被明确定义,“让位”的条件也不清楚 [1]
与时代同行,广发基金杨冬团队打造适配全周期的工具箱
第一财经资讯· 2025-12-25 11:56
市场环境与行业背景 - 2025年末A股市场处于风格轮动“快速换挡”的新阶段,回顾2022-2023年为价值回归,2024年为杠铃策略,2025年为成长牛市,剧烈的风格切换对单一策略投资者构成挑战 [1] - 国内公募基金行业正经历高质量发展改革,监管推动行业从规模导向转向投资者利益导向,核心要求是追求更具持续性、更稳定可预期的超额收益 [1] 团队核心人物与背景 - 广发基金总经理助理杨冬证券从业19年,投资管理超16年,其职业生涯始终扎根于广发基金 [2][4] - 杨冬于2006年加入广发基金研究发展部,覆盖食品饮料、商贸零售和有色行业,2009年转任专户投资经理,2021年开始管理公募基金 [2] - 截至2025年12月23日,杨冬在管公募产品共9只,包括3只主观多头产品和6只“主观+量化”产品 [2] - 杨冬每年接待超过1000场研究路演,平均每个工作日进行几场深度交流,对新生事物敏锐且心态开放 [5] - 2017年中小盘泡沫破裂的经历促使杨冬系统性思考如何构建能适应不同市场环境的投资体系 [5] 团队构建与投资理念演进 - 为解决单一策略的周期性问题,杨冬从2022年开始探索,耗时近四年搭建起一支“主动+量化”的复合型团队 [6] - 团队现有成员6人,平均从业年限超10年,由杨冬率领 [1] - 团队建设初衷是管理规模变大后,需在懂宏观周期和行业配置的基础上提升组合胜率,因此先引进量化团队人员 [6] - 团队核心目标是构建“风格策略的全天候”产品,实现超额收益的稳定性、持续性和系统化 [1] - 投资理念强调“鲁棒性”,即投资组合在不同市场环境下都能保持相对稳定的超额收益能力 [7] “主观+量化+AI”三位一体投资体系 - 团队采用“主观多头+主动量化+AI增强”的三位一体投资策略 [10] - 在实际运作中采用“并联模式”,让每位成员依托宏观、基本面量化、AI增强、行业研究等专业领域独立运作,形成多个低相关性的收益来源,构建“立体阿尔法” [8][9][13] - “并联模式”核心优势包括策略来源多元且相关性低、系统容错性强、能充分激发成员积极性 [13] - 量化体系内部分工明确:研究员陈可负责基本面量化策略,侧重价值维度;研究员陈伟负责机器学习驱动的AI增强体系,侧重交易与市场行为捕捉 [14][15] 产品线布局与业绩表现 - 产品主要分为两类:底仓型基金(以战胜主流宽基指数为目标)和策略/板块增强型基金(在“聪明贝塔”基础上做增强) [16] - **主观多头产品业绩(截至2025年12月23日)**: - 广发多因子(002943)2025年收益36.79%,超越中证800基准23.70% [3] - 广发价值领航(014317)2025年收益72.33%,超越沪深300基准55.09% [3] - 广发均衡成长(019876)2025年收益47.62%,超越沪深300基准31.67% [3] - **“主观+量化”产品业绩(截至2025年12月23日)**: - 策略增强型:广发成长智选(002802)2025年收益37.07%,超越国证1000成长基准23.99%;广发稳健策略(006780)2025年收益24.86%,超越中证红利全收益基准20.04% [3] - 板块增强型:广发制造智选(023524)2025年收益44.79%,超越申万制造业基准19.48%;广发科技智选(023647)2025年收益38.05% [3] - 广发多因子展现出罕见的业绩持续性,自2018年至2025年12月23日,是全市场仅有的2只连续8年每年均跑赢沪深300、中证800及中证偏股基金指数的主动权益基金之一 [18] - 广发多因子自2020年以来取得285.96%的累计回报,同期沪深300区间涨幅为12.57% [18] - 广发价值领航自成立以来累计收益达111.52%,广发均衡成长自成立以来累计收益达49.82%,年化收益率均达20%以上 [18] - 广发稳健策略(006780)积极配置港股,2024年以来港股持仓市值占全部股票的平均占比为34.65% [20] 新产品与平台整合 - 团队即将于2026年1月7日发售广发研究智选(A类:026072;C类:026073),该产品是对“团队作战”的新演绎 [22] - 新产品采用“主观研究+主动量化+AI增强”的三位一体增强框架,其备选股票池来源于广发基金研究发展部行业研究员在31个申万一级行业中推荐的重点股票池 [22][24] - 研究发展部下设A股六大研究小组(周期、制造、消费、TMT、新能源、医药)和海外组,为团队提供底层研究支持 [24] 方法论有效性与行业趋势 - 根据申万宏源研究,杨冬团队采用的“主观+量化”融合框架使得多数产品在管以来超额收益的相关性较低,普遍在50%以下 [22] - 团队化分工、多策略体系、主动和量化结合等实践,契合监管《推动公募基金高质量发展行动方案》中有关“加快‘平台式、一体化、多策略’投研体系建设”的要求 [25]
与时代同行,广发基金杨冬团队打造适配全周期的工具箱
第一财经· 2025-12-25 11:52
市场环境与团队背景 - 2025年末A股市场风格轮动“快速换挡”,2022-2023年价值回归、2024年杠铃策略、2025年成长牛市,剧烈的风格切换对单一策略投资者构成挑战 [1] - 公募基金行业正经历高质量发展改革,监管推动从规模导向转向投资者利益导向,追求更具持续性的投资回报 [1] - 广发基金总经理助理杨冬率领一支“主观+量化”复合型全天候风格策略团队,团队现有6人,平均从业年限超10年,杨冬本人证券从业19年、投资管理超16年 [1] - 团队核心目标是提供“风格策略的全天候”产品,实现超额收益的稳定性、持续性和系统化 [1] 团队领军人物与产品线 - 杨冬职业生涯扎根广发基金近二十年,2006年加入研究发展部,2009年转任专户投资经理,2021年开始管理公募基金 [2] - 截至2025年12月23日,杨冬在管公募产品共9只,包括3只主观多头产品和6只“主观+量化”产品 [2] - 主观多头产品包括广发多因子(2025年收益36.79%,超越基准23.70%)、广发价值领航(2025年收益72.33%,超越基准55.09%)和广发均衡成长(2025年收益47.62%,超越基准31.67%) [4] - “主观+量化”策略增强产品包括广发成长智选(2025年收益37.07%,超越基准23.99%)和广发稳健策略(2025年收益24.86%,超越基准20.04%) [4] - “主观+量化”板块增强产品包括广发制造智选(2025年收益44.79%,超越基准19.48%)和广发科技智选(2025年收益38.05%) [4] 投资理念与体系构建 - 杨冬每年接待超过1000场研究路演,保持高强度工作节奏,对新生事物敏锐,不陷入“路径依赖” [5] - 2017年中小盘泡沫破裂的经历促使杨冬系统性思考如何构建能适应不同市场环境的投资体系,他观察到大多数出色基金经理的擅长风格具有明显周期性 [5][6] - 为解决单一策略的周期性问题,杨冬从2022年开始探索,耗时近四年,搭建起“主动+量化”复合型团队,初期从券商引进量化研究员,后补充主观行业研究员 [6][7] - 团队核心理念是结合主动投资的赔率优势与量化投资的胜率逻辑,目标是构建具有“鲁棒性”(Robustness)的投资组合,即在面临市场干扰时仍能保持稳定的超额收益能力 [7][8] - 团队提出“立体阿尔法”概念,旨在通过多个低相关性的收益来源构建更稳健的超额收益体系 [10][11] “并联模式”与策略协同 - 团队采用“主观多头+主动量化+AI增强”三位一体投资策略,并以“并联模式”进行探索 [12][15] - “并联模式”让每位成员在宏观、基本面量化、AI增强、行业研究等领域独立运作,核心优势包括策略来源多元、系统容错性强、能激发成员积极性 [16] - 在量化体系内部,研究员陈可负责基本面量化策略,侧重价值维度,构建多策略风险平价模型并进行动态轮动调仓;研究员陈伟负责机器学习驱动的AI增强体系,侧重交易与市场行为捕捉 [16][17] - 团队协作逻辑是“主观和量化最好的协同形式,就是独立运作、互不干扰”,通过专业分工与系统化整合,在不同市场风格中获取来源更多元、持续性更强的超额收益 [16][18] 产品定位与客户需求 - 团队产品主要分为两类:一类是底仓型基金,以战胜沪深300、中证800等主流指数为目标;另一类是策略增强和板块增强基金,在长期具有“聪明贝塔”的基础上做增强 [20] - 底仓型产品代表广发多因子展现出罕见的业绩持续性,自2018年至2025年12月23日,连续8年每年均跑赢沪深300、中证800及中证偏股基金指数,全市场仅2只基金达到此标准 [21][22] - 广发多因子自2020年以来取得285.96%的累计回报,同期沪深300区间涨幅为12.57% [22] - 其他底仓型产品广发价值领航自成立以来累计收益达111.52%,广发均衡成长自成立以来累计收益达49.82%,年化收益率均达到20%以上 [21][22] - Smart Beta风格增强型产品特征清晰,便于投资者“工具化”配置,例如广发稳健策略兼顾高股息与增速,2024年以来港股持仓市值平均占比为34.65%;广发成长智选重视高景气,净利润同比在成长型基金中高度突出 [22][23] - 板块增强型产品(如广发制造智选、广发科技智选、广发资源智选)均采用“主观多头+主动量化+AI增强”复合策略,持仓偏向特定板块 [24] 平台化运作与新基金 - 杨冬团队在管9只公募产品构成了策略多元、收益来源低相关性的产品矩阵,申万宏源研究指出,多数产品超额收益的相关性普遍在50%以下 [26] - 即将于2026年1月7日发售的广发研究智选是对“团队作战”的新演绎,采用“主观研究+主动量化+AI增强”三位一体增强框架 [26][28] - 该基金备选股票池来源于广发基金研究发展部行业研究员在31个申万一级行业中推荐的重点股票池,研究部下设A股六大研究小组和海外组,提供底层研究支持 [28] - 新产品运作体系中,AI增强的选股框架大量使用非线性手段对研究团队模拟组合选股池进行增强,以提升选股精度 [28] - 团队化分工、多策略体系、主动与量化结合等实践,契合监管《推动公募基金高质量发展行动方案》中有关“加快‘平台式、一体化、多策略’投研体系建设”的要求 [29]
英伟达开源自动驾驶软件,中国车企要接吗?
汽车商业评论· 2025-12-04 07:07
英伟达Alpamayo-R1开源模型的技术特点 - 英伟达首次开源针对自动驾驶场景设计的视觉-语言-动作大模型,其数据集总大小约100TB,并明确可用于商业和非商业用途 [5] - 该模型采用“链式推理”机制,先将传感器数据转化为自然语言描述,再进行逐步场景分析和路径推理,模仿人类分步思考的决策过程 [5] - 模型通过逻辑推理预判风险,在长尾复杂场景中鲁棒性显著提升,例如能处理繁忙十字路口的杂乱施工路障、无保护左转或雨夜道路损毁等情况 [5][8] - 在极端长尾场景测试中,该模型较传统模型规划准确率提升12%,事故率降低35%,近碰率降低25%,并实现99毫秒的低延迟响应 [10] - 开源套件包含Alpamayo-R1模型、部分训练数据集、配套工具、AlpaSim仿真评估框架以及“物理AI开放数据集”中的部分数据 [10] - 配套的Cosmos开发者工具链提供了高质量数据构建规范、合成场景生成流程及模型评估基准等资源,方便研究人员微调与部署 [12] 英伟达的战略布局与行业影响 - 通过开放核心算法,英伟达旨在巩固并扩张自身生态影响力,使汽车厂商能像组装手机一样快速构建自动驾驶系统,即购买其芯片平台并微调算法即可 [14] - 此举被业内评论为标志着Robotaxi产业进入“安卓时刻”,制造商可采用通用开放的硬件加软件方案 [15] - 开源策略与英伟达硬件销售目标相辅相成,更多开发者和整车厂采用其软件生态,将带动对Orin/Thor等车规级计算芯片的需求 [16] - 英伟达明确表示,借助开源有助于行业形成统一的评测和安全标准,加速错误发现和修复,并迎合监管对可解释性的要求 [16][19] - 公司希望通过Cosmos大模型平台确立技术话语权,并加速整个生态向“理解型自动驾驶”演进 [19] 对自动驾驶产业链的冲击 - 英伟达的开放动作加剧了开源与封闭阵营间的竞争,打破了传统如特斯拉Autopilot、Waymo或Mobileye等厂商的闭源“黑盒”惯例 [21] - 此次将高阶推理模型全面开源,标志着封闭高端自动驾驶技术的壁垒被进一步撕裂,可能引发新一轮开源热潮 [23][24] - 随着自动驾驶硬件趋于同质化,决策层面的算法和软件生态将成为关键竞争点 [24] 中国市场的机遇与挑战 - 中国智能驾驶域控制芯片装机量中,英伟达Orin-X占33.5%,绝大多数国内车企的L2/L3乃至L4系统依赖英伟达方案 [26] - 对于依托英伟达平台的中国车企,开源软件和工具能够直接用于本地算法开发和场景调优,加速软件化转型 [27] - 中国行业面临智能驾驶工程师严重短缺的挑战,到2025年相关人才缺口将超百万,智能驾驶工程师供需比仅为0.38 [29] - 消化和应用复杂大模型需要大量复合型人才,而中国绝大多数测试场景仍集中在有限路段,大规模L4落地试运营仍需时间 [30][31] - 中国车企和供应商需评估是否拥有足够的高精度地图、长尾场景数据和模拟环境,来验证开源模型的安全性与合规性 [31]
理想分享自动驾驶强化学习闭环训练框架
理想TOP2· 2025-11-28 00:10
论文核心观点 - 论文AD-R1旨在通过闭环强化学习提升端到端自动驾驶的安全性与鲁棒性 解决现有世界模型无法正确预测危险后果的系统性缺陷[2] - 核心创新在于提出公正世界模型和基于未来想象的强化学习框架 以解决模仿学习的分布偏移和缺乏负反馈问题[3][4] 自动驾驶技术范式对比 - 开环系统基于离线数据静态回放 算法决策与环境状态解耦 无法改变历史[1] - 闭环系统在动态仿真中实现车辆操作与环境的实时交互 并改变后续时空轨迹[1] 现有技术缺陷分析 - 模仿学习存在分布偏移问题 难以应对训练数据未覆盖的长尾场景[3] - 缺乏负反馈机制 导致AI无法从数据中学习危险行为的后果[3] - 现有世界模型存在乐观偏差 会对不安全动作产生幻觉 如让障碍物消失或改变路面属性以维持预测连贯性[3] AD-R1框架核心技术 - 训练公正世界模型作为诚实裁判 通过反事实数据合成将安全数据转化为车祸数据 教会模型理解危险行为的真实后果[4] - 采用轨迹感知门控技术 通过掩码强制模型关注指令路径上的特征 防止忽略障碍物[6] - 引入自车保真度损失作为惩罚项 防止模型在预测未来时擅自改变自车轨迹 确保其只预测不行动[6] 强化学习训练流程 - 策略网络首先生成候选轨迹(如10条)[8] - 轨迹输入公正世界模型(梦境引擎)预测未来4D占用网格[7][8] - 基于预测未来计算奖励 使用GRPO算法通过对比轨迹优劣更新策略 无需额外价值网络[8] 三维空间精细化评估 - 利用世界模型输出的3D/4D体素数据 计算比传统BEV方法更细致的奖励函数[8] - 体积碰撞惩罚通过重叠体积量化碰撞严重程度 而不仅是二元判断[8] - 垂向间隙惩罚检测隧道顶部或限高杆碰撞风险(2D BEV无法实现)[8] - 路面稳定性奖励确保车辆行驶在平坦路面 避免骑压马路牙子[8]
机器人格斗赛,还得靠人类遥控指挥?
虎嗅· 2025-05-28 10:22
人形机器人格斗赛事 - 全球首个以人形机器人为参赛主体的格斗竞技赛事"CMG世界机器人大赛·系列赛"机甲格斗擂台赛在杭州举行,展现人形机器人在运动控制、平衡能力等方面的新突破 [2] - 比赛采用积分制,分3回合每回合2分钟,击中头部躯干为有效击打,手部动作1分腿部3分,倒地扣5分8秒内无法起身扣10分 [5] - 宇树G1人形机器人参赛,身高1.3米体重35公斤,拥有29个自由度,动作流畅度与灵活性较高 [5] 遥控与非遥控技术对比 - 当前比赛以人操控手柄的遥控技术为主,考验算法和操控者反应力 [3] - 遥控技术是让人的大脑控制机器人的小脑,而非遥控需要搞定大脑,涉及视觉识别、状态定位及参赛策略等 [3] - 行业整体看复杂场景下的非遥控技术还需等待5年以上,研发技术和时间成本是主要压力 [4] 机器人性能与材料 - "鲁棒性"成为衡量性能核心指标,指机器人在环境扰动等情况下能精准处理多关节协同运动,实现毫秒级响应 [6] - 机器人采用碳纤维骨架与铝合金材料减轻重量保障结构强度,关节使用高扭矩密度电机与精密减速器支持爆发性动作 [9] - 足底六维力传感器实现毫米级压力检测维持动态调整步态,脊柱与仿生结构利用刚柔耦合设计吸收冲击力 [9] 非遥控技术挑战 - 实时感知与决策算法能力不足是非遥控技术核心难点,需具备实时环境感知、意图识别和动态决策能力 [11] - 硬件上需更高算力边缘计算芯片和冗余传感器网络,AI芯片模块占控制系统成本大头,六维力传感器高成本阻碍规模化应用 [13] - 动态平衡控制需协调全身关节力矩与地面反作用力,现有算法对极端干扰鲁棒性不足 [13] 技术发展预期 - 未来3至5年机器人有望实现独立行走、奔跑等基础非遥控技术,但复杂场景完全自主控制需更长时间 [14] - 成都人形机器人创新中心发布全国首个无需遥控的Raydiculous-1系统,具备自主学习处理跨场景任务特性 [10]