多模态强化学习 - 财报，业绩电话会，研报，新闻

多模态强化学习

搜索文档

观察者网· 2026-02-02 11:26

公司人事动态 - 95后顶尖AI科学家庞天宇已正式加入腾讯混元团队，担任首席研究科学家（Principal Scientist）及多模态强化学习技术负责人（Tech Lead@Multimodal RL Team）[1] - 庞天宇近期从新加坡回国，其加入是腾讯继姚顺雨之后招揽的又一位95后顶尖AI人才[1] - 庞天宇在加入后，主要研究方向为多模态模型的强化学习，涵盖生成模型和理解模型[1] 新任科学家背景与专长 - 庞天宇为清华大学计算机系2017级直博生，师从朱军教授，研究方向为机器学习，特别是深度学习及其鲁棒性[2] - 其近期的研究工作涉及大语言模型的安全性问题，包括“突破大语言模型限制”和多模态大语言模型等前沿领域[2] - 在技术应用方面，曾提出利用视觉重采样原理来防御潜在攻击的方法，能在不改变模型权重的情况下提高基础模型的可靠性[2] - 2022年从清华博士毕业后，他前往新加坡，加入了由颜水成领导的Sea AI Lab，担任高级研究科学家[6] - 他在学术界影响力显著，已在ICML、NeurIPS、ICLR等顶级会议发表论文70余篇，谷歌学术引用超1.5万次[6] - 根据其个人资料，其谷歌学术总被引次数为15474次，自2021年以来的被引次数为13986次，h-index为45，i10-index为75[7] - 其高被引论文包括“Boosting adversarial attacks with momentum”（被引4212次）和“Evading defenses to transferable adversarial examples by translation-invariant attacks”（被引1290次）等[7] - 他曾在2021年参加综艺《燃烧吧！天才程序员》，展现了新一代科研学者鲜活、执着的一面[8][10] 行业与公司战略意义 - 庞天宇的研究方向与当前大模型安全性和可靠性的发展趋势高度契合[2] - 其专长对于大模型在实际应用中的安全部署具有重要价值，特别是在内容生成、智能推荐等敏感场景中[2] - 评论认为，其在可信AI和生成模型方面的专长，可能为腾讯混元模型在安全性、可控性和内容质量方面带来提升，有助于解决当前大模型面临的内容安全、幻觉等问题[10] - 腾讯混元团队近期已有多位AI领域专家加入，显示出公司在大模型技术研发上的持续投入和战略布局[10]

早已“破圈”的庞天宇，能带领腾讯混元“破圈”吗？

36氪· 2026-01-31 13:03

腾讯AI人才引进与组织策略 - 公司近期引入第二位95后顶尖AI科学家庞天宇，其将担任腾讯混元大模型团队首席研究科学家及多模态强化学习技术负责人 [1] - 此前公司已引入前OpenAI研究员姚顺雨，其担任CEO首席科学家、AI Infra部和大语言模型部负责人，庞天宇与姚顺雨在分工上非从属关系 [1] - 公司通过社交媒体等“网红”风格操作吸引人才，成为AI行业近年来的风向 [2] - 公司CEO马化腾在员工大会上强调“稳扎稳打”，同时亲自为“元宝派”AI社交玩法站台，并推出春节10亿元现金红包活动抢夺C端市场 [3] - 公司在AI业务上呈现出新叙事：产品上用元宝和混元冲锋，组织上招募姚顺雨、庞天宇等95后顶尖人才，将“少年英雄”推到台前 [3] - 公司通过“青云计划”面向全球招募2024–2026年毕业的博士及2025–2026年毕业的本硕生，提供师资、算力和高竞争力薪酬，以吸引青年AI人才 [17] - 公司AI人才策略变化明显，更明确将AI人才视为技术竞争核心力量，并加大了对原生AI人才的吸引力度，通过年轻化力量重构研发团队 [17] - 公司开始树立一批如姚顺雨、庞天宇等年轻的带头人作为团队标识，以对外释放更年轻、更具进攻性的面孔，打破路径依赖、重塑AI叙事 [18] 庞天宇的背景与研究专长 - 庞天宇为清华大学计算机系博士、前新加坡Sea AI Lab高级研究科学家 [1] - 其于2021年以清华博士生身份参与综艺《燃烧吧！天才程序员》，成为少数被公众熟知的青年AI研究员之一 [3] - 其高一获得清华大学保送资格，2022年博士毕业后加入Sea AI Lab [6] - 其作为第一作者或共同第一作者，在ICML、NeurIPS、ICLR等国际顶级机器学习会议发表大量论文，参与研究总引用超过1.4万次 [6] - 其研究方向覆盖可信机器学习、深度生成模型与鲁棒性（robustness）领域，长期关注模型在复杂环境下的稳定性与鲁棒性问题 [7] - 其在ICML2022的论文中提出SCORE（自洽鲁棒错误率）新定义，实验显示模型可在保持高准确性的同时兼具更稳定的对抗鲁棒性 [7] - 最近两年其研究重点延伸至大模型与多模态系统在真实部署中的风险问题，2024年参与发表的论文系统性展示了多模态大模型Agent化后可能出现的安全放大效应 [8] - 该工作首次将“大模型越狱”从单模型问题推进到多智能体系统层面，并给出可复现实验路径 [9] - 其研究覆盖生成、理解与系统层问题，技术完整度与腾讯当前混元体系需求高度契合 [9] 腾讯混元多模态业务现状 - 混元的多模态部门是去年架构重组后的产物，涵盖生图、视频、3D生成（单体/世界模型）等多个领域 [10] - 生图部分，混元图像已更新到3.0（HunyuanImage3.0-Instruct），推出图生图版本并开源，更突出对复杂指令的理解与执行 [10] - 视频生成方面，2025年公司围绕混元视频系列持续补充了图生视频、定制化生成等能力，并优化推理与部署方案 [11] - 3D是公司多模态布局中更具长期指向性的方向，公司已正式发布并开源混元3D世界模型，能从文本或图像生成可漫游三维场景 [11] - 混元3D系列在2025年持续迭代，同时配套推出面向生产流程的工具产品，强化几何精度、可控性与结果复现能力 [12] - 混元多模态在图片、视频、3D生成全方位推进的同时，在生态上全面开源，试图在开发者社区扩大影响力 [12] - 混元3D系列在 Hugging Face社区的下载量超过百万次，在开发者群体中受到关注 [12] - 混元发布的大语言模型（如 Hunyuan-Large、Hunyuan-A13B 等）在业内声量上落后于自家的多模态生态 [12] - 当前混元多模态面临的核心问题从“能生成什么”转向能否稳定地按用户意图完成复杂任务，具体挑战包括图生图的区域误伤与风格一致、视频生成的运动自然与长序列控制、3D生成的几何精度与流程复现等 [12] - 混元3D负责人郭春超曾表示后续重要优化方向是降低用户使用门槛，如帮助用户做更多prompt改写或提供“文+图”等多模态输入，使可控性更契合用户想法 [13] 庞天宇的潜在职责与业务影响 - 庞天宇的加入可能为混元补强多模态强化学习与模型行为边界研究的能力，旨在提升多模态场景下模型输出的稳定性、跨模态生成与理解任务的优化 [16] - 随着公司释放更多补强C端AI业务的信息，优化多模态模型的紧迫性进一步提升 [13] - 公司上线“元宝派”多人社交形态探索，并配套春节10亿元红包玩法，把AI助手从单人对话拉向群体场景和高频社交分发，元宝中的多模态能力将迎来海量用户检验 [13] - 相比B端场景，C端场景下模型输出的稳定性要求会显著提高，更考验模型的可靠性 [16] - 庞天宇长期关注的模型鲁棒性与在复杂环境下的稳定性问题，对多模态系统和智能体在真实产品中的可靠运行至关重要 [7] - 其研究取向带有明显的工程和产品导向，与公司近期不断强化多模态与Agent的背景高度契合 [7] 行业竞争与腾讯的AI战略调整 - 字节跳动增长员工薪酬与年终奖金预算，将奖金总池提升约35%，并提高薪酬调整预算以增强AI业务的薪资竞争力 [18] - 阿里巴巴秋招中AI岗位占比超过六成，明确把AI技术人才作为重点增长方向 [18] - 在C端层面，腾讯的元宝既没能压制豆包和DeepSeek，甚至在部分声量与活跃度上被后来者千问反超 [18] - 公司CEO马化腾指出ChatGPT、DeepSeek等产品改变了行业进程，但公司要坚持以“产品长期竞争力和用户体验”为核心的路径 [17] - 公司AI业务需要摆脱“旧形象”，通过从核心团队成员开始调整，对外释放更年轻、更具进攻性的面孔，成为打破路径依赖、重塑AI叙事的必要选择 [18] - 代表未来生产力的AI行业，在叙事逻辑上需呈现“新瓶装新酒”，27岁的公司需要一批“少年英雄”为3岁的混元讲好AI故事 [20]

突发，姚顺雨后，清华95后庞天宇加入腾讯，任混元「首席科学家」

36氪· 2026-01-30 19:46

核心观点 - 腾讯近期连续引进顶尖AI青年科学家，继OpenAI的姚顺雨后，前Sea AI Lab高级研究科学家、清华大学博士庞天宇也已正式入职，担任腾讯混元首席研究科学家，负责多模态强化学习技术研发 [1][2] - 此举标志着腾讯的AI战略从跟随转向全面进攻，通过引进处于科研巅峰期的年轻科学家，并调整组织架构，旨在集中资源在智能体（Agent）和多模态等核心赛道上实现追赶甚至超越 [2][11][14] 人才引进与团队建设 - 新引进的科学家庞天宇为95后，拥有清华大学数理基科班学士学位及计算机系人工智能博士学位，师从朱军教授，博士毕业后曾在新加坡Sea AI Lab担任高级研究科学家 [3][5][7] - 庞天宇学术成果丰硕，已在顶级会议和期刊上发表70余篇论文，谷歌学术引用次数超过15000次，h-index为45，曾获百度奖学金（全球仅10人）、微软学者奖学金、英伟达学术先锋奖等多项重量级荣誉 [6][8][9] - 腾讯的人才策略呈现年轻化趋势，高薪挖角90后、95后正处于科研巅峰期的科学家，如96年左右的姚顺雨和95年的庞天宇，他们均拥有“清华+海外/顶尖机构”背景及一线大模型实战经验 [12] 技术战略与研究方向 - 庞天宇的主要研究方向为可信机器学习、生成式模型，并聚焦于多模态模型的强化学习，具体涵盖生成模型（如Diffusion Models）和理解模型（如VLMs） [3][9] - 在腾讯混元团队，庞天宇将作为多模态强化学习技术负责人，重点攻坚多模态生成与理解的对齐问题，其技术能力对于腾讯庞大的游戏和机器人业务至关重要 [9][10] - 新引进的两位科学家研究方向形成互补：姚顺雨主攻推理（Reasoning）能力，解决模型“怎么思考”；庞天宇主攻多模态强化学习（Interaction），解决模型“怎么交互”以打通虚拟与现实的决策壁垒 [2][13] 组织架构与战略意图 - 腾讯近期成立了AI Infra等新部门，并将核心科学家职级大幅提升，使其直接向总裁汇报，通过集中算力和数据资源来修正起步稍晚的劣势 [14] - 公司高层内部讲话表示，希望借助AI社交新玩法，重现类似微信红包的全民热潮 [11] - 公司的战略意图是通过“钞能力”和极高的决策权限，在智能体（Agent）和多模态原生赛道上，实现对DeepSeek、OpenAI等竞争对手的追赶甚至超越 [14]

腾讯控股(HK:00700)

Artificial Intelligence

多模态强化学习

Internet Services

腾讯混元

Artificial Intelligence

多模态强化学习

Internet Services

腾讯混元

00后MIT华人女生辍学创业，已融1.5个亿

量子位· 2025-08-20 12:33

公司融资情况 - 公司完成总计2100万美元融资，折合人民币1.5亿元 [5][19] - 种子轮由Conviction领投350万美元，A轮由a16z领投1750万美元 [19][20] - 融资资金用于扩大工程和产品团队、推进上市战略及发展合作伙伴生态系统 [21] 公司业务与定位 - 公司定位为RPA界的Copilot，通过LLM和计算机视觉帮助客户构建自动化流程 [2][11] - 用户仅需录制操作流程，系统自动生成机器人脚本，支持桌面和浏览器环境的数据抓取及手动归档 [13] - 系统能从文档中提取、验证和构建数据，支持跨团队协作并实时跟踪工作流程 [13] - 系统可根据用户反馈自动调整逻辑和修正错误，无需编程能力即可编辑自动化流程 [14] 公司业绩与客户 - 公司成立仅两年，收入自年初以来增长五倍，工作流程量环比翻倍 [3][16] - 客户包括世界财富100强企业、AmLaw100强公司及医疗保健和物流领域数十亿美元级领军企业 [3][17] - 已应用于金融服务、法律、保险与医疗等多个行业 [17] 创始人背景 - 联合创始人Jessica Wu为00后，MIT辍学，跨界数学、计算机科学和金融 [6][24][25] - 曾在对冲基金（如Citadel Securities）担任最年轻的量化研究员，并创办过服装设计公司 [6][30] - 联合创始人Neil Deshmukh同为00后，MIT计算机科学背景，专注多模态强化学习和计算机视觉研究 [6][32][34] - 二人分工明确：Jessica Wu负责产品设计、用户体验及市场推广，Neil Deshmukh负责技术落地 [37] 行业趋势与竞争优势 - 公司专注于传统企业的AI自动化流程，通过非技术用户可访问的AI原生架构实现差异化 [8][37] - AI软件服务可为传统行业减少20%-40%工作量，节约成本并提高生产力 [37] - 投资者看好其覆盖多行业非技术用户的普适性能力，而非局限于特定行业 [22][23] 00后AI创业现象 - 00后创业者涌现于AI领域，如金融量化AI、具身智能、AI编程及自动招聘等赛道 [38][39][40][42][43] - 多例00后创始团队来自MIT、斯坦福等名校，并通过辍学专注创业 [6][39][42][43] - 部分企业估值显著，如Cursor母公司估值达99亿美元 [42]

人形机器人量产元年，关注产业链上下游投资机会

2025-05-18 23:48

纪要涉及的行业和公司行业：人形机器人、外骨骼机器人、机器人视觉识别、电梯、传感器等公司：五洲新春、金沃股份、浙江驱动、微光股份、恒立、沃尔德、兆威机电、节能驱动、绿的谐波、中大力德、科力尔、泰山肯綮公司、智云股份、海普麦机器人、深圳肯綮公司、优必选、云深处科技、特斯拉、英伟达、Physical Intelligence（派）、广和通、大业股份、北特科技、芯动联科、瑞迪智驱、汇川技术、埃斯顿、奥瑞德、思看科技、安培龙、天机智能、新强联 [1][2][5][6][7][11][12][15][17][18][22][27][28][30][31][32][34] 纪要提到的核心观点和论据 1. **人形机器人产业链投资机会** - 执行器市场潜力大，百万套量产级别后规模超百亿，轴承行业公司如五洲新春和金沃股份凭借优势切入 [1] - 硬件成本有望通过技术创新降低，催生国产化装备和刀具需求，沃尔德等企业有望受益 [1] - 机械手自由度提升带来供应链变化，高精度模组价值高，空心杯电机等上游核心部件存在机会，关注兆威机电等企业 [1] - 若行业量产达百万台以上，RV 减速器和六维力传感器将面临产能缺口，关注绿的谐波等国产供应商 [1] - 浙江驱动积极布局业务，一体化集成技术降成本，与信邦智能合作推进，海外客户突破值得期待，2025 年绝对估值 25 - 30 倍 [1][5] 2. **部分公司发展情况及前景** - 五洲新春主业受海外业务影响，但在汽车和高端轴承领域表现稳健，预计 2025 年业绩企稳反转，机器人市场布局加速 [2][11] - 金沃股份专注轴承套圈业务，营收和利润反转，绝缘轴承技术突破，预计 2025 年营收增长 15%以上，2027 年营收可达 20.98 亿元，利润 1.73 亿元 [2][12][13] - 微光股份历史报表稳健，2025 年一季报优异，绝对估值 20 倍以内，向空心杯电机等布局并取得进展 [7] 3. **四杠技术受关注原因** - 特斯拉展示机器人动作流畅成熟，大量采用四杠技术，单机使用数量多，百万套量产级别后市场规模超百亿，且在多领域有广泛应用 [8] 4. **轴承行业公司切入四杠市场原因** - 轴承工艺与设备和四杠技术接近，原材料同源，如轴承钢可制造四杠，五洲新春和金沃股份为杭州新建公司提供配套服务 [9] 5. **外骨骼机器人发展情况** - 泰山肯綮公司外骨骼产品在景区应用广泛，可节省抬脚力度；智云股份投资海普麦机器人；深圳肯綮公司产品迭代快，进入千元以下市场，2025 年产能 2000 - 3000 台，产品复购率和应用效果好 [15] 6. **机器人视觉识别解决方案** - 包括大脑、小脑和眼睛三个关键环节，中国企业在小脑领域表现出色，大脑领域全球领先企业有特斯拉等，广和通在该领域有进展，割草机器人率先放量 [17][18] 7. **海外 5G 及物联网与 AI 结合影响** - 推动未来 AI 应用场景发展，新场景受益，机器人领域通信需求大，存在投资机会 [19] 8. **机器人算法关键环节** - 包括角色交互、运动控制和执行模块，对应大脑、小脑和肢体，全球厂商布局不同，技术路线未完全收敛 [20] 9. **智能机器人发展趋势及技术进步** - 2024 - 2025 年在多模态、强化学习自适应算法、具身智能方面取得进步，大脑智能水平将提升人形机器人自主性与泛化性 [21] 10. **北特科技情况** - 主营业务包括汽车底盘转向等产品，铝合金轻量化产能布局加快，在人形机器人领域关注丝杠技术，有优势且已开展相关研发生产 [22][25][26] 11. **其他公司情况** - 芯动联科产品用于高精度工业协作机器人，有望用于人形机器人，研发车规级 IMU [27] - 瑞迪智驱以电池制动系统闻名，推进一体化产品，有望在人形机器人精密传动系统发挥作用 [28][29] - 奥瑞德在电梯电池制动器市场获认可，谐波减速器预计发展顺利 [30] - 思看科技基于激光扫描和双目视觉原理，产品应用广泛 [31] - 安培龙专注传感器产品，与天机智能合作研发力矩传感器，传统业务产能和料号丰富 [32][33] 其他重要但可能被忽略的内容 1. 杭州新建公司在国内市场受认可，为五洲新春和金沃股份提供配套服务，推动人形机器人发展，对金沃股份业绩贡献显著 [9][14] 2. 铝合金轻量化产品销量增长 144%，收入从 0.45 亿元增长到 1.3 亿元，单价下滑但整体毛利率稳定，产能扩充预计成未来毛利增长点 [23] 3. 北特科技底盘转向减震零部件毛利率预计稳定，空调压缩机产能利用率低，在建工程产能未完全释放，市场空间扩大后业务收入占比可能恢复 [24] 4. 特斯拉新机器人采用线性关节技术可能推动滚珠丝杠市场规模增长，未来 5 - 10 年出货量 100 - 150 万台，对应市场规模约 350 - 400 亿元，滚柱丝杠占比约 14%即 53 亿元左右 [26]