Workflow
人工智能
icon
搜索文档
又一所大学突然倒闭
投资界· 2026-04-24 10:21
高等教育行业的结构性变革 - 美国高等教育机构正经历显著的结构性调整,老牌文理学院罕布什尔学院宣布将于2026年秋季学期彻底关闭[3] - 雪城大学大规模削减了84个专业,其中包括大量传统人文学科、纯艺术专业以及数字人文、教育等项目[6] - 顶尖大学如哈佛、斯坦福等正迅速推出“AI+人文”的跨学科新专业,以回应市场需求并证明自身价值[9] AI对传统教育模式的冲击与雇主需求转变 - 硅谷科技公司正引领“反大学”潮流,部分公司放弃招聘应届生,转而使用成本更低的AI,或直接高薪聘用高中毕业生[7] - 传统教育流水线被认为已无法跟上AI时代的需求,就业端雇主的用人选择是推动这一变革的关键力量[7][11] - 企业亲自下场抢人与学术界的调整,共同表明旧的教育模式正被颠覆[11] 斯坦福AI职场报告:人机协作的五级分类体系 - 斯坦福大学报告基于对104个职业、1500名从业人员、844项任务的分析,提出了人类能动性量表,将工作分为H1至H5五个等级[14][18] - **H1级(完全自动化)**:涵盖单调、重复、低价值任务,如数据录入、报税等,46.1%的员工强烈希望此类工作被AI自动化[19][20] - **H2级(AI主导,人类监督)**:如发票分类、设计交易策略等,AI承担主要工作,但人类监督不可或缺以防止偏差[23][24] - **H3级(平等合作)**:最受欢迎的模式,在104种职业中有47个职业(占比45.2%)的员工偏好此方式,例如律师用AI梳理案例但保留最终判断权[25] - **H4级(人类主导,AI辅助)**:如医疗诊断、财务预测等高风险管理决策,AI提供支持但不越俎代庖[28] - **H5级(完全依赖人类)**:涉及情感支持、人际冲突调解、复杂伦理问题处理等工作,即使AI模拟准确率达85%以上也无法在同理心方面替代人类[29] 职场中AI与人类任务的错配现象 - 研究发现存在明显的“错配”:大量重复性、低价值的H1/H2级工作(如数据录入、生成报表)仍由人类完成,而这些工作者中高达46%强烈希望自动化[33] - 相反,在艺术、设计和媒体等需要人际互动的领域,仅17.1%的人接受AI自动化,但这些行业已有人因AI而失业[33] - 这种错配导致人力资源浪费,并增加了AI在不擅长领域犯错的风险[34] 基于需求与能力的AI战略四象限 - 报告根据“员工愿望”与“AI能力”的差异,将所有工作划分为四个战略区域[37] - **绿灯区(高需求+高能力)**:如会议安排、数据库录入,应优先自动化,是投资不足的领域[37][41] - **红灯区(高能力+低需求)**:如情感化工作、创意写作,盲目自动化可能损害品牌,但41%的AI初创公司集中在此区域和低优先级区[38][41] - **研发机会区(高需求+低能力)**:如临床文档、法律证据开示,是未来AI发展的重点方向和催生新职业的赛道[39] - **低优先级区(低需求+低能力)**:如高管培训、心理咨询,不适合也不需要自动化[39] AI时代职场核心能力的演变趋势 - **信息处理能力边缘化**:如数据分析、报告生成等技能的重要性急剧下降,相关岗位将滑向最易被替代的H1/H2区域[44][45] - **人际与组织能力成为主角**:“人际交往技能”、“组织协调能力”、“领导和管理”等与人高度相关技能的重要性大幅上升[46] - **跨学科技能成为刚需**:未来要求“技术基础+人际能力+创意思维”的复合型技能组合,单一专业技能已不够[51] - 科技发展的目标是借助AI让人变得更加人性化,而非将人性外包[51] 未来专业选择与人才培养方向 - 雇主需求正从“纯学术的传统人文”转向具备“AI技术+人文同理心”的复合型人才[51] - 纯粹依靠信息处理能力的专业或成为“死胡同”,而融合技术与人文的跨学科专业更具前景[37][51] - 教育的重点可能从“把人异化为机器”转变为培养AI无法替代的人类独有特质,如道德抉择、情感安抚和批判性思维[51]
GPT-5.5正式发布:更聪明、更省token 英伟达工程师:失去它就像被截肢
金融界· 2026-04-24 09:03
模型性能与技术进步 - 新模型的核心突破在于从对话工具转变为能独立执行复杂任务的自主执行者,可自主完成理清头绪、规划步骤、调用工具、校验结果和持续推进的全过程[1] - 在复杂终端操作评测Terminal-Bench 2.0上得分82.7%,较前代GPT-5.4的75.1%有显著提升[1] - 在软件工程评测SWE-Bench Pro上得分58.6%,在内部长周期任务测试Expert-SWE上达到73.1%,且完成这三项测试均消耗了更少的token[1] - 在跨44种职业的综合评测GDPval中,其胜出或打平的比例达到84.9%[1] - 在模拟客服工作流的Tau2-bench Telecom场景中得分98.0%,高于GPT-5.4的92.8%[1] - 在模拟真实计算机操作的OSWorld评测中得分78.7%[1] - 在生物信息学评测BixBench上得分80.5%,位列所有已公布成绩的模型之首[2] - 一版内部模型证明了一个关于Ramsey数的长期猜想,并在证明助手Lean中完成了形式化验证[2] 技术优化与硬件协同 - 模型针对英伟达GB200/GB300 NVL72系统进行了联合设计[2] - 其每token延迟与GPT-5.4持平,同时通过负载均衡优化,token生成速度提升了超过20%[2] - 在执行相同的Codex任务时,GPT-5.5所消耗的token数量显著少于前代模型[2] 市场发布与定价 - 模型已向ChatGPT Plus、Pro、Business和Enterprise用户开放[3] - 提供的Codex服务支持最高400K的上下文窗口[3] - API版本即将上线,标准定价为每百万输入token 5美元、每百万输出token 30美元[3] - GPT-5.5 Pro的API定价分别为每百万输入token 30美元和每百万输出token 180美元[3] 早期用户反馈 - Cursor联合创始人兼CEO Michael Truell评价称,GPT-5.5面对漫长复杂的任务时能坚持到底,不会中途停摆[2] - Every创始人兼CEO Dan Shipper验证了模型能独立输出一套水准堪比资深工程师的系统重构方案[2] - 一位英伟达工程师表示,失去GPT-5.5的访问权限感觉“就像肢体被截肢了一样”[2]
给「对手」的钱比给「盟友」多,亚马逊疯了吗?
雷峰网· 2026-04-24 08:38
亚马逊对Anthropic与OpenAI的投资策略对比 - 公司对Anthropic的总投资承诺高达330亿美元,包括已投的80亿美元和最新承诺的250亿美元,其中仅50亿美元立即到账,剩余200亿美元与未来商业化里程碑挂钩 [2] - 公司对OpenAI的投资承诺高达500亿美元,但仅150亿美元立即到账,剩余350亿美元与OpenAI在2028年前实现IPO和AGI技术突破等高门槛条件绑定,分析师预计全额落地概率不超过30% [11] - 两笔投资性质不同:对Anthropic的330亿美元是“重仓”生态命脉,而对OpenAI的500亿美元是进可攻退可守的“期权” [11] 与Anthropic的深度战略绑定 - 公司与Anthropic签订了为期10年、总额高达1000亿美元的AWS算力采购长约,将双方彻底绑定 [3] - 在AWS的Bedrock平台上,接近90%的营收和模型调用份额来自Anthropic的Claude系列,使其成为平台事实上的核心 [3] - 合作已延伸至芯片设计源头,Anthropic技术团队深度参与亚马逊Trainium2、3、4三代芯片的架构定义与功能设计,实现从芯片到模型的全链路协同 [14] - 公司为Anthropic锁定最高5GW的专属算力配额,并优先供应最新Trainium3芯片产能,双方共建的Project Rainier集群使用了近50万片Trainium2芯片 [14] - 公司向Anthropic开放全生态资源,Claude深度集成至Bedrock平台及亚马逊客服、企业数据分析等业务,超10万家企业客户通过AWS调用,体验与原生产品一致 [16][17] 与OpenAI的有限合作 - 公司与OpenAI的合作始于一份7年380亿美元的算力租约,随后才承诺入股,合作深度有限 [11] - 与OpenAI在芯片层面仅有“未来8年消耗2GW Trainium算力”的口头约定,无联合研发、架构协同或专属算力集群 [14] - 合作主要停留在模型接入与渠道分销层面,OpenAI核心闭源模型未全面入驻Bedrock,AWS仅拥有其企业服务第三方分销资质,受微软持有OpenAI核心知识产权限制,深度整合存在天花板 [17] 投资背后的战略动机与行业背景 - 战略动机是确保AWS在AI时代的生存与发展,投资多少是表象,核心在于守住基本盘并打破垄断 [20] - 2022年11月ChatGPT爆火后,微软将GPT全面接入Azure,导致Azure营收增速达29%,而AWS增速跌至12%的历史低点,大量AWS老客户为使用GPT将AI业务迁至Azure [22][23] - 2023年上半年,全球新增AI算力需求的60%流向微软,Anthropic因其技术能力、安全合规属性且未被其他巨头绑定,成为公司对抗“微软+OpenAI”联盟、守住政企基本盘并打破英伟达芯片垄断的关键抓手 [23] - 投资OpenAI旨在撬开微软对其长达6年的独家垄断,在AI Agent等领域分得一杯羹,同时对冲技术路线风险,并为自研芯片提供背书以吸引更多用户 [25] 整体战略布局与行业影响 - 公司通过“千亿双投”策略,在微软和英伟达的双重竞争下开辟道路:用对OpenAI的投资打破垄断,用对Anthropic的重仓投资构建自身生态护城河 [27] - AI军备竞赛已从模型大战转向基础设施和生态的终局之战,公司的投资布局为其赢得了参与终局之战的入场券 [28]
突破算力瓶颈!港大俞益洲团队发布首篇「高效视频世界模型」全面综述
机器之心· 2026-04-24 07:37
文章核心观点 - 视频生成模型正从生成“特效”向模拟物理规律的“世界模型”演进,被视为通向通用人工智能(AGI)的关键赛道[2] - 当前视频生成模型要成为实用的世界模拟器,面临“长时一致性”、“实时高可用”与“物理准确性”难以兼得的“不可能三角”挑战,核心瓶颈在于巨大的计算成本与速度[3] - 行业研究首次系统性地从“高效性”视角出发,综述如何通过提升效率将视频生成器转化为实用的世界模型,梳理了高效建模范式、模型架构、推理算法及下游应用[4] 高效建模范式 - 该部分探讨如何将模型从短片段生成扩展到支持长周期、交互式的世界建模,是构建高效视频世界模型的基础[8][9] 高效模型架构 - 架构设计旨在直接缓解时空冗余和注意力机制的平方计算复杂度,涵盖了四大方向的研究[10] - 方向包括:**扩散模型蒸馏**,可将采样步数压缩至几步甚至单步;**自回归与混合方法**,旨在实现长周期推理与高保真度;**层次化与VAE设计**,通过级联生成或隐空间压缩降低成本;**长上下文与记忆机制**,以维持长周期的物理与逻辑一致性[12] - 方向还包括:**高效注意力机制**,利用稀疏注意力、窗口注意力、线性注意力或状态空间模型(如Mamba)替代昂贵的全局注意力;**外推与RoPE技术**,通过优化位置编码实现无需训练的长序列外推生成[12] 高效推理算法 - 面向数十亿参数级大模型的实际部署,总结了四类关键的推理优化策略[11] - 策略包括:**并行化**,如分布式推理(空间、序列及流水线并行);**缓存机制**,利用扩散模型相邻去噪步之间的时空冗余进行特征复用;**剪枝**,包含token级合并/丢弃及网络架构(通道、层级别)剪枝;**量化**,以8bit、4bit部署,涵盖从注意力机制量化到训练后量化与量化感知训练,以及时间维度的动态量化策略[12] 赋能应用:自动驾驶 - 视频世界模型在自动驾驶领域有三大核心应用方向[12] - **数据合成**:用于批量生成“鬼探头”、极端天气等现实稀缺的长尾场景数据,为感知和规划模型提供训练素材,代表工作如GAIA系列、MagicDrive-V2[13] - **闭环交互模拟**:将世界模型作为虚拟考场,让AI系统在其中不断试驾、学习,形成“生成—评估—重训”的闭环,例如Vista、ADriver-I实现了“在AI生成的虚拟世界里无限开车”[13] - **生成式规划**:模型通过“想象”多条未来轨迹并选择最优路径来指导执行,使自动驾驶系统具备前瞻性规划能力,例如Drive-WM、DriveLAW将视频生成与动作规划共享同一个隐空间[14] 赋能应用:具身智能 - 视频世界模型为机器人领域解决了数据采集成本高、分布窄的难题,扮演三重角色[15] - **数据引擎**:例如GigaWorld-0通过文本引导真实视频编辑扩充数据,DreamGen用世界模型的“想象”生成轨迹级监督信号,GenMimic将人类运动视频“迁移”到人形机器人进行强化学习[16] - **交互式模拟器**:机器人可在世界模型生成的虚拟环境中安全试错,例如Ctrl-World、DreamDojo[16] - **生成式策略学习**:例如GR-1在大规模视频上预训练后迁移到机器人操作,Fast-WAM提出的WAM范式证明世界模型的增益主要来自视频联合训练塑造的物理表征,仅15M参数的LeWorldModel证明小而精的隐空间模型也能实现高效规划[16] 赋能应用:游戏与交互式世界模拟 - 游戏提供了闭环交互接口和可控评测环境,是视频世界模型的理想试验田[17] - 具体应用包括:GameGen-X将键盘鼠标操作注入生成过程;Matrix-Game 2.0在GTA5和虚幻引擎数据上训练,实现了约25 FPS的交互生成和分钟级长序列滚动推演;DreamerV4用世界模型充当强化学习的虚拟训练场[17] - 在通用方向上,WorldPlay主打高分辨率实时生成,Yume1.5通过上下文压缩和蒸馏降低长序列延迟,开源项目LingBot-World将分层语义数据引擎与多阶段训练结合,追求低延迟交互与长期记忆的统一[17]
奇瑞汽车与英伟达合作布局物理AI,实现“从云端到车端”全面布局
选股宝· 2026-04-23 22:34
4月23日,奇瑞汽车与英伟达(NVIDIA)达成全球战略合作。双方将在辅助驾驶、座舱AI、机器人三 大领域共同开发并布局物理AI ,加速推进奇瑞汽车在全球范围内的业务拓展,实现"从云端到车端"的 全面布局。 英伟达在2026年GTC大会上发布了物理AI全栈基础设施,涵盖L4自动驾驶平台DRIVE Hyperion、推理 型VLA模型Alpamayo 1.5和Physical AI数据工厂。当前,AI与汽车的深度融合进入全栈纵深拓展阶段, 全球多个头部整车企业(如比亚迪、吉利、现代、奔驰等)均与英伟达及其生态伙伴围绕物理AI、L4 级自动驾驶平台达成战略合作。 证券时报表示,英伟达在机器人物理AI领域具备强大模型、芯片和仿真训练平台(如Omniverse),可 为奇瑞在生产、物流、面向Robotaxi等业务开辟新赛道。Rubin平台作为英伟达新一代全栈算力基础设 施,将在2026年下半年上市,具备更高AI推理性能、更低令牌成本,且产能供应稳定。这为奇瑞长期 全球化战略和大规模智能车量产提供了算力与生态基础。 公司方面,据证券时报表示, 索辰科技:公司推出的物理AI平台"天工·开物"对标英伟达Omniverse, ...
美股异动|Oklo大涨超11%,与英伟达和洛斯阿拉莫斯国家实验室达成合作
格隆汇· 2026-04-23 21:57
公司股价与市场反应 - 核能技术公司Oklo股价大幅上涨,涨幅超过11%,最高触及每股80.64美元,创下自今年1月末以来的新高 [1] 战略合作与核心内容 - 公司与英伟达及洛斯阿拉莫斯国家实验室达成合作协议,共同推进核燃料验证和关键核基础设施建设 [1] - 合作汇集了Oklo的先进钠快堆平台、英伟达的人工智能基础设施,以及洛斯阿拉莫斯国家实验室在材料科学与核燃料领域的专业知识 [1] - 合作旨在结合先进核电、人工智能、数字孪生、建模和仿真技术,为联邦政府的Genesis任务提供支持 [1]
现金流击穿悲观,但资本开支抬升:特斯拉为何盘后从涨转跌
美股研究社· 2026-04-23 20:24
财报核心数据与市场即时反应 - 公司一季度营收为223.87亿美元,同比增长16%,但低于市场预期的226亿美元 [4] - GAAP毛利率为21.1% [4] - 运营现金流为39.37亿美元,自由现金流为14.44亿美元,显著好于市场预期的现金流出约14.3亿美元 [4] - 财报公布后,盘后股价一度上涨约4%,但在电话会后转跌,跌幅一度达2.4% [4] 利润修复的构成与性质 - 汽车业务收入为162.34亿美元,同比增长16% [7] - 服务及其他收入为37.45亿美元,同比增长42% [7] - 能源业务收入为24.08亿美元,同比下滑12% [7] - 利润改善由多重因素驱动:更高的车辆平均售价、更强的服务业务毛利、更高的完全自动驾驶(FSD)销售与订阅收入、较低的单车材料成本以及汇率正面影响 [7] - 利润中包含与关税和质保相关的一次性收益,并非完全由需求自然回暖驱动 [7] - 监管积分收入从上年同期的5.95亿美元降至3.8亿美元 [8] 运营与交付指标 - 一季度总运营费用为37.79亿美元,同比增长37%,主要受AI及其他研发项目、CEO奖励相关股权激励以及销售、管理和行政费用扩张推动 [9] - 研发支出为19.46亿美元,销售、管理和行政费用为18.33亿美元 [9] - 全球车辆交付量同比增长6%至35.8万辆,但库存天数从上一季度的15天升至27天 [9] - 储能部署为8.8GWh,同比下降15% [9] 资本开支计划与未来现金流指引 - 公司将2026年资本开支目标从年初的“超过200亿美元”上调至“超过250亿美元” [4] - 首席财务官表示公司正进入一个将持续数年的重大资本投资阶段,并预计2026年余下时间将出现负自由现金流 [4] - 一季度资本开支为24.93亿美元,同比增长67%,但仍比分析师平均预期低了约40% [5] 战略转型与业务进展 - 公司正积极推进Robotaxi扩张、Cortex 2算力集群、Dojo 3、Optimus工厂和芯片制造布局 [1] - Robotaxi付费里程环比接近翻倍,4月已在达拉斯和休斯敦推出无监督乘坐服务,并计划向更多城市扩张 [11] - FSD(Supervised)于4月获荷兰批准,为后续欧盟其他国家审批打开路径 [11] - Cybercab和Tesla Semi都将在2024年实现量产 [13] - Optimus第一代大规模工厂将在二季度开始准备,设计产能为年产100万台;得州的第二代产线按长期年产1000万台的目标设计 [13] 市场估值逻辑的转变 - 财报表面上证明盈利恢复,但电话会提醒市场:公司正在被重新定价,越来越像一家具备制造底座的AI投建型公司,而非单纯的卖车公司 [1] - 市场对利润表的反应表明,焦点已从当期盈利转向未来资本开支和现金流路径 [4] - 对于AI和机器人平台公司,资本市场更在意收入兑现速度和自由现金流被压制的时长 [13] - 公司估值的提升需要更清晰的Robotaxi商业闭环和可验证的AI收入兑现路径,以证明大规模投资能带来回报 [14]
海松资本陈立光:泡沫涌动,更应坚守长期价值
投中网· 2026-04-23 18:38
当前资本市场与一级市场特征 - 资本市场呈现显著结构性失衡,港股有500余家企业排队等待上市,而A股全年上市名额仅刚过百家,数万家创业企业集中冲击退出通道,形成“堰塞湖”[3] - 一级市场投资高度集聚,资金全面向硬科技赛道倾斜,2026年一季度天使轮和A轮融资占比超过72%,先进制造、AI、半导体等领域几乎垄断了全部市场关注[3] - 行业头部效应持续强化,估值溢价不断攀升,中腰部企业生存与发展面临巨大挑战,市场呈现剧烈的“K型分化”,并非普惠的复苏[3] - 一级市场资本高度向早期阶段集中,天使轮与A轮占比超七成,先进制造、人工智能、半导体等领域成为资本核心方向,非硬科技赛道融资难度显著提升[11] 中国制造业与出口表现 - 中国制造业产值占全球比重已超过30%,联合国预测到2030年这一比例将升至45%[7] - 在细分领域,中国光伏组件厂家占全球80%,汽车产量全球第一,钢铁、家电、手机等众多传统优势品类产量全球占比超50%[7] - 2024年,“新三样”(光伏、锂电池、新能源车)出口额超过1万亿元人民币,风电设备出口86亿美元,光伏产品连续4年出口超2000亿美元,均创历史新高[10] - 2024年半导体芯片全年出口额达1595亿美元,出口量近3000亿块,超越手机成为出口额最高的单一商品,连续14个月同比增长[10] - 2025年,中国汽车出口超过700万辆,同比增长近30%,其中电动车出口261万辆,同比增长超100%,蝉联全球汽车出口第一[10] - 2025年,中国新能源汽车产量1662.6万辆,销量1649万辆,同比增长28.2%,国内渗透率近50%,连续11年全球产销第一[10] - 2025年中国货物贸易顺差历史上首次突破1万亿美元,同比增长19.8%[10] 行业机遇与技术变革 - 以高端制造为代表的新质生产力,已成为驱动中国产业升级的核心力量[7] - 在资本和供应链的双重加持下,机器人等硬科技领域的迭代速度或将迎来指数级爆发式增长,例如机器人半程马拉松冠军成绩在一年内从2小时40分42秒大幅提升至50分26秒[7] - AI与具身智能是本轮技术革命的核心赛道,行业正从语义推理向物理执行升级,技术核心从“预测下一个词”转向“预测下一个状态”[12] - 中国凭借完整供应链、丰富应用场景与大规模落地能力,在AI与具身智能等领域具备独一无二的发展优势[12] - 世界经济格局自2010年以来逐步进入多极协同、中国全面崛起的新阶段,5G、新能源汽车、人工智能等领域的科技变革成为驱动格局重构的核心力量[10] 行业风险与挑战 - 行业出现阶段性泡沫与非理性现象,部分初创企业估值短期大幅攀升,有的短短一个月就翻倍,有的一年翻五倍[12] - 企业数量爆炸式增长与商业化落地程度严重脱节,大部分公司商业化进展与估值扩张严重脱节[3][12] - 部分创业企业存在“战略错位”,从面向市场(To Market)转向面向资本(To VC、To PE),这种发展模式难以持续[3][12] - 资本市场退出端面临结构性压力,港股与A股上市排队企业数量众多,形成IPO“堰塞湖”[12] 投资策略与机构应对 - 市场β收益正在逐步弱化,投资机构更需要主动拥抱并创造α价值[4][11] - 投资机构必须跳出传统财务投资框架,构建产业运营与价值整合能力,以产业思维拥抱时代变革[11] - 穿越周期需要理性与定力,应坚守长期主义,摒弃急功近利的心态,回归产业价值本源,投资人需要秉持谨慎、理智的心态,而非FOMO式追涨[12] - 行业并购整合已是大势所趋,期待监管层进一步优化并购重组政策,打通产业整合通道[12] 海松资本的战略与实践 - 海松资本成立于2018年,以产业视角深耕硬科技投资,聚焦先进科技、绿色科技、生命科技等赛道,已投资企业超100家,管理规模超250亿元[15] - 海松资本近30家已投企业成功IPO、近三分之一项目实现退出,DPI表现优异,其中2025年有摩尔线程、屹唐股份等6家企业实现IPO[15] - 2026年,海松资本开启2.0时代,深化与早期创业者及投资机构的协同合作,同时加速并购基金布局,助力产业整合升级[15] - 海松资本2.0时代将行研向着更广的覆盖面、更深的颗粒度、更实的可落地性靠拢,持续巩固少数股权投资优势,同时加大控股投资力度,积极推进并购交易[15] - 2026年一季度,海松资本已完成十余家企业投资,并有多个并购项目在推进,聚焦AI时代智慧能源、智能底座等核心方向[15] - 海松资本的核心竞争力源于“从产业中来,坚持到产业中去”的团队产业创业与运营经验,构建了类产业资本赋能体系[16] - 海松资本2.0时代将做得“更重、更深、更远”:加大投资力度,提高持股比重;更深度的参与运营与产业整合;做有鲜明特色的长期投资机构[16] - 未来十年,海松资本确立了“立足中国,放眼世界”的发展定位,依托中国制造业体系、科技实力、工程师红利等优势,同时坚定推进全球化布局[16]
奇瑞牵手英伟达,车企集体转向物理 AI
第一财经· 2026-04-23 17:37
奇瑞与英伟达的战略合作 - 奇瑞汽车与英伟达达成全球战略合作,双方将在辅助驾驶、座舱AI、机器人三大领域共同开发并布局物理AI [1] - 合作旨在加速推进奇瑞汽车在全球范围内的业务拓展,实现“从云端到车端”的全面布局 [1] - 这是继吉利之后,又一家与英伟达合作布局物理AI的中国车企,吉利已于2026年3月宣布深化与英伟达在物理AI等领域的合作 [1] 合作的具体技术领域 - 在自动驾驶领域,奇瑞汽车将为中国市场的L3/L4级智能汽车采用英伟达DRIVE Hyperion平台,该平台是专为L4级自动驾驶设计的量产级平台与参考架构 [1] - 在座舱AI领域,奇瑞汽车将基于NVIDIA DRIVE开发新一代智能体验,通过生成式AI技术提升座舱能力 [1] - 在具身智能等前沿领域,奇瑞将基于英伟达Jetson平台,采用NVIDIA Isaac Sim仿真框架和Isaac GR00T人形机器人开发平台,探索具身智能新领域 [2] 公司的战略背景与行业趋势 - 此次合作是奇瑞汽车AI战略布局的关键一环,呼应了其2026年发布的全域AI战略蓝图 [3] - 奇瑞汽车董事长表示,智能化是公司全球化战略的核心引擎,与英伟达合作是整合全球顶尖技术资源、加速迈向全球化高科技生态集团的关键一步 [3] - 当前汽车企业正加速从交通工具制造商向物理AI公司跨界 [3] 行业竞争与投入动态 - 特斯拉在2026年一季度财报电话会中明确,2026年资本支出将超过250亿美元,投向AI算力、Dojo 3芯片、Optimus人形机器人工厂等领域,并将自动驾驶、人形机器人、自研芯片列为三大核心增长支柱 [3] - 小鹏集团计划在2026年将物理AI相关研发投入提升至70亿元人民币,以推动Robotaxi、人形机器人及飞行汽车量产 [3] - 理想汽车2025年研发支出113亿元人民币中约50%投入AI相关项目,2026年预计维持约120亿元人民币的研发规模 [3] - 蔚来将AI定位为年度优先事项,成立人工智能技术委员会统筹推进;比亚迪组建了超过5000人的专项团队,计划未来在智能化领域投入超过1000亿元人民币,并计划在2026年自用2万台机器人 [3]
CVPR 2026 | 告别倾听「扑克脸」,UniLS框架来了,刷新数字人对话SOTA
机器之心· 2026-04-23 16:58
文章核心观点 - 盛大AI研究院(东京)与东京大学联合提出UniLS框架,是首个仅凭双轨音频即可端到端同时驱动数字人说话和倾听面部动作的统一解决方案,有效解决了行业长期存在的倾听时“扑克脸”问题,提升了对话的自然感和沉浸感[2] - 该方法在说话精度上达到SOTA水平,倾听自然度分布指标提升高达44.1%,同时支持超过500 FPS的实时生成,已被CVPR 2026录用[2] 行业痛点与现有技术局限 - 在游戏NPC、虚拟主播等数字人对话场景中,倾听时的“扑克脸”问题(表情僵硬、毫无反应)是行业长期痛点[2] - 现有方法大多只关注单向生成:speak-only方法仅生成说话动作,listen-only方法仅生成倾听反应,二者无法在统一框架内协同工作[5] - 唯一尝试联合建模的DualTalk依赖对方说话者的预计算面部序列作为额外输入,导致系统非端到端、无法实时部署[5] 技术原理与核心创新 - **核心发现**:研究发现,说话时音频与面部动作高度关联,而倾听时面部动作与对方音频的关联非常微弱,这种不平衡导致联合训练时倾听分支退化为静态表情[7] - **核心设计**:基于上述发现,UniLS将倾听行为分解为“内在运动先验”与“外部音频调制”两个独立组成部分,通过两阶段训练范式分别学习[5][7] - **两阶段训练框架**: - **第一阶段**:在大规模非配对多场景视频数据(共计546.5小时)上训练一个无音频的自回归生成器,学习眨眼频率、头部微动等内在运动先验[10] - **第二阶段**:使用Seamless Interaction配对对话数据(251.5小时说话 + 406.0小时倾听)进行微调,通过新增的交叉注意力层引入双轨音频信号进行调制[11] 性能表现与实验结果 - **定量指标**:在Seamless Interaction测试集上,UniLS在全部指标上取得最优。倾听方面,FDD指标从DualTalk的43.58大幅降至17.12,F-FID从13.143降至4.304,P-FID从0.079降至0.038,分布指标提升高达44.1%[17][18] - **用户研究**:与DualTalk相比,超过91%的用户偏好UniLS的倾听反应自然度,90%偏好其表情自然度,86%偏好其口型同步质量[19][20] - **实时性能**:UniLS在单张RTX 5090 GPU上以560.6 FPS运行(参数量421.3M),显著优于ARTalk*的357.7 FPS(489.5M)[21]