Workflow
量子位
icon
搜索文档
统一视觉多模态与多任务!快手可灵与港科大团队发布视频生成模型,加速真实世界理解
量子位· 2025-12-14 15:12
文章核心观点 - 由港科大、港中文、清华大学和快手可灵团队提出的UnityVideo,是一个通过统一训练多种视觉模态(如深度图、光流、骨骼、分割掩码等)来提升视频生成质量与可控性的创新框架[1][3] - 该框架借鉴了大语言模型统一训练多种文本子模态的成功经验,旨在让视觉模型更深刻地理解物理世界规律,从而在视频生成、可控生成和模态估计等多项任务上实现性能提升,并展现出强大的零样本泛化能力[8][9][13][16] 技术原理与创新 - **核心动机**:实验发现,模型同时学习多种视觉模态时,在RGB视频生成任务上的收敛速度显著加快,最终性能也明显提升,不同模态提供了互补的监督信号,促进了模型对物理世界规律的理解[13][15] - **动态任务路由**:在单个架构中无缝统一了三种训练范式(条件生成、模态估计、联合生成),通过动态噪声调度策略随机切换训练模式,避免了灾难性遗忘[19][21][22] - **模态切换器**:包含上下文学习器和模态自适应切换器,前者通过文本提示让模型在语义层面区分模态,后者在架构层面为每种模态学习独立的调制参数,实现了即插即用的模态选择能力[26][27][29][31] - **渐进式课程学习**:采用两阶段训练策略,先在单人场景数据上训练像素对齐的模态建立基础,再引入所有模态和多样化场景数据,以支持鲁棒的零样本推理[32][33] 性能与实验结果 - **多任务性能**:在文本生成视频、可控生成和模态估计三大类任务上均取得优异表现,例如文本生成视频的背景一致性达97.44%,可控生成的动态程度达64.42%,视频分割任务mIoU达68.82%,深度估计Abs Rel仅为0.022[36][44] - **定性优势**:在物理现象理解(如光线折射)、可控生成质量(更忠实遵循深度引导且避免背景闪烁)以及模态估计精度(更精细的边缘细节和准确的3D点云)上均优于对比方法[41][42] - **消融实验验证**: - 多模态互补性:联合训练不同模态带来明显性能提升,例如联合训练光流和深度后,成像质量分别提升4.37和4.19个百分点[45][46][47] - 多任务训练必要性:统一多任务训练能恢复并超越单独训练可控生成任务时下降的性能,证实了任务间的协同效应[48][49] - 架构设计有效性:上下文学习器和模态切换器各自都能提升性能,结合使用可获得额外显著增益[50] 泛化能力与影响 - **零样本泛化**:模型展现出强大的泛化能力,例如仅在单人数据上训练可泛化到多人场景,在人体骨架数据上训练后可泛化到动物骨架估计,在特定物体上训练的深度估计和分割能力可泛化到未见过的物体和场景[16] - **组合泛化**:上下文学习器赋予模型组合泛化能力,例如在“two persons”分割任务上训练后,能自然地泛化到“two objects”场景[53][55] - **行业启示**:UnityVideo的成功表明,提升模型能力不仅依赖增大参数量和数据量,更重要的是通过组织和利用多样化的学习信号、整合任务以涌现能力,并辅以精心设计的架构机制[63] 数据与评估基础 - **训练数据集**:构建了OpenUni数据集,包含130万个多模态视频样本,涵盖370,358个单人场景片段、97,468个双人场景片段、489,445个来自Koala36M的片段以及343,558个来自OpenS2V的片段[35][37] - **评估基准**:构建了UniBench评估基准,包含3万个样本,其中200个高质量样本来自Unreal Engine渲染,提供了ground truth深度和光流,为公平全面的评估奠定了基础[35]
OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE
量子位· 2025-12-14 13:17
文章核心观点 - OpenAI开源了一种名为Circuit Sparsity的新型稀疏大语言模型,该模型通过将99.9%的权重约束为零,构建出类似电路图的清晰、可解释的内部计算路径,旨在破解传统稠密Transformer模型的“黑箱”问题[1][6] - 这种追求“原生稀疏性”的技术路线,与当前主流的混合专家模型在架构思路上形成对比,可能对MoE的发展路径构成挑战[8][18] - 尽管该技术在模型可解释性上取得突破,但其训练和推理计算量是传统稠密模型的100-1000倍,算力成本极高,目前能力尚不及顶尖大模型,短期内难以替代成熟的MoE架构[20][21] 模型技术原理与特点 - 模型基于GPT-2风格的Transformer架构,通过严格约束使权重的L0范数极小,将99.9%的连接“砍断”,仅保留千分之一的有效通路,形成类似电路导线的固定信息传递路径[10] - 模型通过“均值屏蔽”剪枝方法,为不同任务拆解出专属的“最小电路”,例如处理Python引号闭合任务仅需2个MLP神经元和1个注意力头[12] - 在预训练损失相同的前提下,稀疏模型的任务专属电路规模比稠密模型小16倍,且电路模块具备严格必要性与充分性,删除任一节点会导致任务失效,从而实现逻辑步骤的精准追踪[14][15] 与混合专家模型的对比 - MoE模型通过门控网络拆分专家子网络来近似稀疏性,核心目的是适配硬件的稠密矩阵计算需求[16] - MoE架构存在缺陷:一是割裂特征流形,导致专家同质化、知识冗余,依赖复杂负载均衡损失函数来维持稳定性;二是专家功能边界模糊,无法实现微观机制的精准拆解[17] - Circuit Sparsity追求“原生稀疏性”,通过将特征投射到超大维度并严格限制激活节点,使每个特征变得单义、正交,从根源上解决了概念分散于多个节点的叠加问题,无需依赖路由器等“Hack”手段[18] 当前局限与未来展望 - 该技术最突出的短板是算力成本极高,训练和推理计算量是传统稠密模型的100-1000倍,暂时达不到顶尖大模型的能力[20][21] - 研究团队提出了两种克服训练效率低下的方法:一是直接从现有密集模型中提取稀疏电路以复用框架、降低成本;二是优化训练机制,从头训练出高效且原生可解释的模型[23][24] - 这项工作被视为AI可解释性探索的早期一步,团队计划将技术扩展到更大模型,以解锁更复杂的推理电路[22]
为Token付费是一件很愚蠢的事情,用户应该为智能付费丨RockAI刘凡平@MEET2026
量子位· 2025-12-13 16:30
文章核心观点 - 人工智能发展的下一个阶段需要突破Transformer架构和反向传播算法这两大技术瓶颈,其方向并非追求模型的无限扩大,而是让模型在端侧设备上具备原生记忆和自主学习能力,从而“活起来”,最终通过无数此类智能体的协作形成能够产生知识的群体智能,这被视为迈向通用人工智能(AGI)的一条新路径 [1][2][7][21][77] 对当前AI发展范式的批判 - 为Token付费的模式被批评为“很愚蠢”,用户应为智能本身付费,而非为处理信息的数量付费 [15][16][17][18][19] - 当前基于Transformer架构的大模型本质上是静态函数,在部署时参数即固定,模型随之“死亡”,无法持续进化,需要依赖重新训练或RAG等临时方案来更新知识 [37][45][51][53] - 过度依赖Scaling Law(规模定律)被认为是错误的,行业陷入比拼算力和数据的“死亡螺旋”,而忽视了架构创新的重要性 [33][35][36] - 长上下文技术被视为一种退而求其次的临时方案,而非真正的智能解决方案,因为它无法形成参数化的长期记忆和价值观积累 [42][43][46] 下一代AI的核心特征:硬件觉醒 - “硬件觉醒”指端侧设备具备像大脑一样的稀疏激活、实时形成记忆并在物理世界中持续更新的能力,使设备从工具转变为“活”的智能体 [4][11] - 端侧模型的关键定义在于**自主学习**和**原生记忆**,而不仅仅是云端大模型的小参数版本 [20][21][29][30] - 实现“硬件觉醒”需要改变模型架构,使训练和推理能够同步进行,从而实现模型的自主进化,摆脱静态函数的桎梏 [48][52][53][54] 新架构路径与技术创新 - 需要突破的两座技术大山是:1) Transformer架构;2) 反向传播算法 [1][7][53] - 新架构(如RockAI的Yan架构)模仿人脑机制,特点是**极端稀疏化**(比MoE更稀疏),以极低的功耗(如人脑约20+瓦)实现高效运算 [55][56] - 在新架构中加入了**记忆模块**,使得在推理过程中记忆能够动态改变,从而实现真正的个性化和长期记忆 [58] - 新模型架构使得在手机、CPU等端侧设备上直接运行成为可能,无需依赖云端GPU,并保证了用户隐私和安全 [60][68] 端侧智能的价值与影响 - 端侧智能的优势在于离用户更近,并能利用无处不在的、完全属于用户个人的数据,无需将所有数据采集至云端 [24][25][27] - 智能将重新定义硬件的价值,硬件价值将随着用户与其共同创造价值而增长,购买时是其价值最小的时候,而非仅为功能付费 [64][65][66][67] - 具备原生记忆和自主学习能力的端侧设备(如手机、具身智能机器人)能够适应个性化环境(如家庭布局),这是当前Transformer架构难以实现的 [62][63][68] 未来方向:群体智能 - 当每一台设备都拥有智能并能向物理世界学习时,将产生**群体智能**,类似于人类社会个体通过合作产生知识 [5][21][70][72] - 现有大模型(尤其是Transformer架构)主要进行知识传播,而**群体智能的核心在于能够产生知识** [21][74][75][76] - 群体智能被认为是迈向通用人工智能的最佳途径,区别于OpenAI等追求的打造单一全能模型的“造神”路径 [71][77]
太初元碁乔梁:AI算法已经跑到单芯片极限|MEET2026
量子位· 2025-12-13 14:30
行业趋势与算力需求 - AI技术落地推动行业算力需求与日俱增,AI算法需要实现毫秒级精确度,带动算力需求呈指数级增长 [1][7] - 各类AI大模型、不同领域的AI Agent落地都需要大量算力支撑 [3][9] - 高性能计算将贯穿从生产制造、科学研究到AI落地的全链路,成为各类计算场景的底层支撑力量 [2][13] 超智融合与异构融合 - “超智融合发展”已成为行业共识,未来趋势是在通用计算场景下,通过硬件架构设计实现异构融合 [3][10][21] - 无论是头部企业还是知名厂商,都在不同维度上尝试将异构众核进行融合 [22] - 行业应用对算力的需求,正从传统科学计算转向以AI算法的泛化性来看待 [8][9] 技术演进与硬件瓶颈 - 单颗芯片性能已成为AI算法发展的瓶颈 [14][25] - 公司自主设计TC link,可实现128卡芯片间的高速互联(scale up),为AI算法增长提供硬件基础 [14][25] - AI算法逐渐向低精度转化,公司采用细粒度的并行优化技术,在硬件层面支持AI场景落地 [22][23] 国产算力生态与开源 - 2016年神威·太湖之光采用了纯国产自主可控的异构众核通用计算架构 [18] - 国内发展人工智能产业离不开开源生态,行业需要企业共同组建开源平台 [14][27] - 公司希望将底层硬件、软件进行开源,吸引各方共同建立AI产业生态 [27] 公司业务与实践 - 公司是一家聚焦高性能计算的国产AI芯片企业,推动HPC+AI落地 [12] - 公司优势在于算力中心建设,服务于大模型训练及大型应用场景 [26] - 公司聚焦垂直行业应用落地,例如与龙芯中科推出基于国产CPU+GPU模式的AI工作站 [27] 应用场景与案例 - 在科研领域,公司参与国内多地公共算力基础设施建设,与高校、科研机构联合攻关 [28] - 公司与百度团队合作,完成了AlphaFold3蛋白预测模型的国产平台复现 [30] - 在气候气象与能源领域,通过HPC算法分析数据,结合AI算法提升能源利用效率,支持算力基础设施发展 [33][34] - 在低空经济领域,通过HPC高精度建模分析气象数据,再导入AI模型,支撑低空领域AI Agent发展 [36]
量子位编辑作者招聘
量子位· 2025-12-13 12:34
公司概况与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量200万以上[12] - 公司在第三方数据平台被认定为AI及前沿科技行业TOP1新媒体[12] 招聘岗位与方向 - 公司开放三大方向的岗位招聘:AI产业方向、AI财经商业方向、AI产品方向[2][6] - 岗位面向社招和校招,社招覆盖编辑、主笔、主编各个层级,校招接受应届毕业生及实习生[4][6] - 所有岗位工作地点均为北京中关村[2] AI产业方向岗位详情 - 岗位职责包括跟进AI基建层新进展,涵盖芯片、AI Infra、云计算领域及核心玩家动态[6] - 职责还包括对前沿论文、开源社区、技术大会报告进行大众化解读[6] - 需要参与核心采访,对话产业专家并撰写AI云落地案例[7] - 任职要求包括对芯片、GPU、NPU、服务器、模型训练架构、云计算有基本理解[11] - 要求熟悉AI行业供应链与生态,并能将复杂技术内容结构化表达,有技术背景者优先[11] AI财经商业方向岗位详情 - 岗位职责聚焦创投、AI创业公司、上市公司、商业模式及产业链资本动向[11] - 需要产出创投融资、招股书财报解析、公司战略分析等稿件[11] - 需要访谈对话投资人、创业者及产业分析人士[11] - 任职要求包括对数据敏感,对财报、股权结构、战略规划感兴趣[11] - 要求逻辑结构强,对商业叙事敏感,并热爱对话采访[11] AI产品方向岗位详情 - 岗位职责关注AI在终端的落地,包括软件应用产品和硬件方向[11] - 需要撰写AI应用产品深度评测,并跟踪多终端新品发布[11] - 需要对话访谈AI应用创业者、产品专家及终端技术专家[11] - 任职要求对智能硬件、AI终端趋势敏锐,是重度AI产品体验人士[11] - 要求熟悉各大终端厂商业态和体验方法论,并有强逻辑与结构化表达能力[11] 加入公司的潜在收益 - 员工可第一时间接触AI领域最新技术和产品,构建完整的AI认知体系[6] - 可将各种AI新技术、新工具应用于工作,提升效率和创造力[6] - 可通过撰写独家原创内容建立个人知名度,成为AI领域意见领袖[6] - 可与AI领域大咖零距离接触,参与重要科技活动,拓展行业人脉[6] - 应届新人可获得主编级编辑的一对一指导[6] - 可加入扁平、简单、开放、多劳多得的活力团队[6] - 可获得行业TOP薪资待遇及五险一金、餐补、绩效、加班补助等福利[6]
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS'25
量子位· 2025-12-13 12:34
行业背景与挑战 - 卫星星座已成为数字经济时代的关键基础设施,具备全球覆盖、快速响应和高频观测能力,支撑遥感、通信、导航、气象预测等行业[4] - 随着星座规模扩大,人工任务规划效率已无法满足需求,调度规划成为高维、动态、强约束的难题[2][4] - 具体挑战包括:任务量大(如SkySat星座13颗卫星日均处理超百项任务)[8]、观测时间窗口紧张(常不足5分钟)[9]、突发任务响应能力有限(如“女娲星座”紧急任务完成率常不足60%)[10]、以及复杂的物理约束条件[11] 技术解决方案:AEOS-Bench基准数据集 - 北航团队为AI星座规划构建了首个大规模真实星座调度基准AEOS-Bench,旨在拟合真实卫星场景[4][13] - 该数据集基于高保真仿真平台开发,还原了轨道动力学、姿态控制、功耗等物理特性[13] - 核心特征:1) 大规模:包含超过16,000个任务场景,覆盖1至50颗卫星、50至300项成像任务及3600个时间步长[13];2) 真实性:在仿真平台生成并引入真实卫星数据测试集[13];3) 全面性:涵盖任务完成率、周转时间、功耗等6类评估指标[14] 技术解决方案:AEOS-Former调度模型 - 北航团队提出了基于Transformer架构的内嵌约束调度模型AEOS-Former,将Transformer泛化能力与航天工程需求深度融合[4] - 模型核心模块:1) 内嵌约束模块:显式建模卫星成像设备视场、电池状态等限制,预测任务可行性[16];2) 编码器解码器:嵌入卫星静态与动态状态,实现卫星-任务匹配[16] - 该研究已发表于顶级会议NeurIPS 2025[5] 模型性能评估 - 在AEOS-Bench数据集上的闭环测试显示,AEOS-Former在任务完成度、时效性和能源效率等六项指标上均优于随机模型、优化模型及强化学习等基线模型[19] - 具体数据:在Seen划分中,AEOS-Former综合得分(CST)为5.00,任务完成率(CR)达30.47%,功耗(PC)为71.27 Wh,均优于最佳基线模型MSCPO-SHCS(CST: 5.85, CR: 28.77%, PC: 135.93 Wh)[20] - 在Unseen划分中,AEOS-Former综合得分为4.43,任务完成率为35.42%,功耗为68.99 Wh,同样全面领先[20] - 分析表明,任务完成率与资源消耗之间存在权衡关系,卫星数量增加能提升联合观测能力,但边际效益会趋于稳定[21] 行业意义与前景 - 人工智能技术是破解卫星星座高效调度难题的关键钥匙,让太空设施具备感知、决策与协同的自主能力[4][23] - AEOS-Bench与AEOS-Former为卫星星座规划提供了高效解决方案,印证了“空天具身智能”的巨大潜力[23] - 该技术发展标志着行业正站在新时代的起点,将不断拓宽人类探索与利用太空的边界[23][24]
美国视频生成老炮儿,入局世界模型
量子位· 2025-12-13 12:34
公司发布通用世界模型GWM-1 - Runway公司发布了其首个通用世界模型GWM-1,该模型基于其最新的视频生成模型Gen-4.5构建 [1][8] - GWM-1采用了自回归架构,能够根据之前的记忆内容进行逐帧预测生成 [9] - 模型支持实时交互控制,包括调整相机姿态、修改机器人操作指令或音频 [10] 世界模型三大变体 - **GWM Worlds**:用于实时环境的模拟与探索,允许用户在连贯、有反应的世界中自由移动,而无需手动设计每个空间 [12][13] - GWM Worlds能够根据用户提供的静态参考场景,实时生成一个包含几何图形、光照和物理效果的沉浸式、无限且可探索的空间 [13] - 该模型在智能体移动时能实时生成新场景,并保持长序列移动过程中的空间一致性,优于普遍只能生成有限长度帧序列的其他世界模型 [13] - 用户可通过文本提示改变环境的物理规则,例如约束地面骑行或解除重力实现空中导航,这有助于训练智能体在真实物理世界中的行动 [15][16] - GWM Worlds还可通过实时生成虚拟环境,为VR沉浸式体验提供支持 [17] - **GWM Avatars**:这是一个由音频驱动的交互式视频生成模型,能够模拟自然的人类表情和动作,适用于写实或风格化角色 [18] - 该模型能够渲染出逼真的面部表情、眼部动作、口型与语音同步以及自然的手势,并在长时间交互中保持稳定质量 [19] - 应用场景广泛,可作为个性化导师解释复杂概念,改变客户服务方式生成数字人,用于面试谈判等高压场景的模拟练习,以及让游戏NPC变得栩栩如生 [20] - GWM Avatars即将正式上线,并提供API供用户集成到自己的产品或服务中 [22] - **GWM Robotics**:这是一个更偏向于学习型模拟器的模型,通过学习机器人相关数据形成模拟能力,用于机器人操作 [23] - 该模型在机器人数据上训练,会根据机器人动作预测视频序列,主要承担两大任务:用于策略训练的合成数据增强,以及在模拟中进行策略评估 [24][25] - 通过生成合成训练数据,可以从新物体、任务指令和环境变化多个维度扩充现有机器人数据集,无需昂贵的真实世界数据收集,提升已训练策略的泛化能力和鲁棒性 [24][25] - 在GWM Robotics中可直接测试策略模型可行性,无需部署到实体机器人,这种方法比真实世界测试更快、重复性更高、安全性更显著,并能提供贴合实际的行为评估 [25][26] - 该模型能有效解决物理硬件成本高、损耗快、场景难复现等瓶颈问题,通过模拟环境替代实体硬件场景,让训练和评估更高效、更具性价比 [27] - 公司同时发布了GWM Robotics的Python软件开发工具包,该SDK支持多视角视频生成和长上下文序列,旨在无缝集成到现代机器人策略模型中 [29] Gen-4.5模型升级 - Runway公司对其视频生成模型Gen-4.5进行了升级,新增支持原生音频生成和原生音频编辑 [30] - Gen-4.5现在可以生成逼真的对话、音效和背景音频,从而将创作内容扩充到更广的故事类型 [31] - 用户可以根据特定需求对现有音频进行任意方式的调整 [32] - 升级引入了多镜头编辑功能,可以在初始场景中进行任意长度的修改,并实现整段视频的一致变换 [33]
半世纪难题48小时破解!陶哲轩组队把AI数学玩成打怪游戏了
量子位· 2025-12-13 12:34
事件概述:AI辅助解决Erdős 1026数学难题 - 陶哲轩与多名数学家合作,在多种AI工具的辅助下,仅用48小时便完全解决了尘封50年的Erdős 1026数学难题[1][2][3] - 陶哲轩指出,若使用传统方法,可能需要数周或数月才能解决[5] - 此次问题的快速解决,体现了“人与人的协作”与“人与AI的协作”相结合的新趋势[46][47] 问题背景与定义 - Erdős 1026问题最早于1975年被提出,初始表述模糊[8] - 数学家Desmond Weisenberg引入最大常数c(n)进行研究,使得S(x1,…,xn) ≥ c(n) * Σxi,其中c(n)针对所有长度为n的不同实数序列[10][11] - 博弈论解释:Alice将N个硬币分为n堆,Bob选择一个单调子序列的堆并拿走其中硬币,c(n)是Bob能保证拿走的最小比例[12][13] - 通过计算得到c(n)的前几个近似值:1, 1, 2/3, 1/2, 1/2, 3/7, 2/5, 3/8, 1/3[15] 解决过程与AI工具应用 - 数学家Boris Alexeev使用Harmonic的数学AI模型“亚里士多德”,在证明助手Lean中自动构造并证明了关键不等式,将原问题转化为计算几何领域的矩形填充问题[16][17] - 数学家Koishi Chan随后给出了基于原始Erdős–Szekeres定理的替代证明,印证了AI的发现[18] - 陶哲轩将问题放入AlphaEvolve,要求其通过生成总和为10的6次方的实数序列来获取c(n)的上界,运行一小时后,AI生成了包含结构清晰潜在极值解的上界结果[18][19] - 陶哲轩利用John Cook的公开专用工具整理序列,为c(n)的值提供了猜想[21] - Boris Alexeev找到了该猜想的简洁表述:c(k²+2a+1) = k / (k²+a),其中0 ≤ a ≤ k[22] - 使用ChatGPT Pro生成1/c(n)的图像,直观显示其基本是对平方根函数的分段线性逼近[26] - 数学家Lawrence Wu结合正方形填充问题(Erdős 106)进行阐述,引入f(n)并设定c(n) ≥ 1/f(n)[28][30] - Lawrence Wu通过AI论文检索,找到一篇去年发表的论文,最终证明了猜想中的公式,从而完成了整体证明[32] AI在数学研究中的广泛应用 - 陶哲轩近期还借助Gemini 2.5 Deep Think破解了Erdős问题 367,全程只用了十分钟[34][35] - 陶哲轩利用GPT-5进行半自动化文献检索,对相关数列进行高精度计算后输入OEIS数据库检索对照,发现部分Erdős问题其实早已在既有研究中被解决[37] - 来自Harmonic的数学AI模型被曝独立证明了Erdős问题 124,微软前AI副总裁Sebastien Bubeck表示该解决方案100%由AI生成,总计耗时6小时[43][44] - Erdős问题网站公开鼓励使用AI辅助解题,但需满足公开说明、用户独立验证及评论长度合理等条件[45] - 陶哲轩表示,在Erdős问题网站上,AI辅助已经变得很常见[42] Erdős问题背景 - Erdős问题出自20世纪著名匈牙利数学家Paul Erdős,他一生合作了超500位数学家,发表了约1525篇数学论文[39] - 他提出或转述了上千道问题,被收录于erdosproblems.com网站,目前绝大多数难题依然悬而未解[39][41]
交大高金朱宁:经济学家视角下AI时代的范式思维转变 | MEET2026
量子位· 2025-12-13 10:00
文章核心观点 - AI的出现正在从根本上改变经济学的基础概念,特别是“稀缺性”的定义,并可能重塑资源配置、生产结构和收入分配的逻辑 [2][6] - 面对AI,不应再寻找不会被替代的安全行业,而应转向思考如何掌握AI技术并与之共生 [3][14][33] - AI将引发全球范围内经济格局、财富分配、国际秩序以及行业工作性质的深刻变革 [26][29][31] AI时代的经济学范式转变 - 经济学的核心是研究在资源稀缺条件下如何做出选择,但AI的出现改变了“稀缺”的概念,过去稀缺的时间、算力、创意等正变得不再稀缺 [9][11] - 当AI替代人类进行工作和决策时,资源配置的主体和标准可能发生变化,未来可能出现人与算法、算法与算法之间的竞争 [6][21][22] - 生产与消费的传统关系受到挑战,随着AI替代越来越多的工作,全社会的收入结构、财政与社保体系将面临巨大挑战 [16][17] AI对全球经济的宏观影响 - 据诺贝尔经济学奖得主估算,AI在未来十年可能每年推动全球经济增长0.5%到0.7% [14][24] - AI能力获取的不平等将加剧全球分化,只有不超过20家大型企业能负担大模型的巨额成本,这可能导致全球财富分配出现新一轮变化 [28][29] - AI驱动的贸易将越来越多地超越物理形态,带来新的跨境监管、治理与责任划分问题,需要建立新的全球治理体系 [29][30] AI对行业与工作的具体影响 - 工作性质发生改变,AI与机器人技术的进步正在打破白领与蓝领之间的传统界限 [31] - 最初认为知识密集型行业(如律师、会计师)易被替代,但随着AI向复杂多模态发展,各行业都将面临更深刻的冲击 [31][33] - 算法无需休息,极大改变了人类在时间维度的能力,一方面将人从时间束缚中解放,另一方面也对许多人的生存技能造成颠覆性冲击 [23]
中国机器人比赛应急救援,美国网友Reddit破防:我们还在给机器狗化妆拍段子
量子位· 2025-12-12 14:41
文章核心观点 - 中国在具身智能(特别是人形机器人)领域,凭借量产能力、完整的产业链和聚焦实战应用的赛事,已取得全球领先地位,引发了美国网友和行业的高度关注与焦虑 [1][3][5][9][33][40][53][56] 国际反响与对比 - 美国网友在Reddit等平台热议,对比中国机器人已在参与应急救援等实战比赛,而美国同类产品仍停留在演示和娱乐阶段,感到“破防”和落后 [1][3][5][6][8] - 国际关注度高涨,外国网友对中国具身智能发展的关注度甚至超过国内,GDPS 2025大赛的规模和实战性给其带来强烈刺激 [9][10][11][12] - 美国机器人公司(如特斯拉)在技术路径上曾受中国公司(如宇树科技)影响,例如从经典控制方法转向强化学习以提升运动能力 [30][31][33] - 硅谷行业人士(如Sunday机器人联创Tony Zhao)警示,中国公司在“硬件量产”与“AI驱动运动控制”结合的垂直整合模式上可能超越硅谷,后者若沉溺于软件优势的假设可能会输掉竞争 [34][35] 中国具身智能的领先优势:量产与实战 - 核心优势在于实现了大规模量产,例如优必选和智元机器人,这与Figure、特斯拉、1X等仍处于原型或小规模试点阶段形成鲜明对比 [36][40][41][42] - 量产(如智元机器人达成5000台交付)能暴露并解决硬件设计潜在问题,推动技术可靠性、供应链稳定性与场景适配性三大核心难题的攻克,使机器人从局限场景进入成熟的产业化部署阶段 [37][38][39] - 量产带来的规模效应将进一步推动算法和数据的标准化,形成正向循环 [41] GDPS 2025大赛作为展示窗口 - 大赛是全球开发者先锋大会暨国际具身智能技能大赛,设有机器人应急救援等实战比赛项目,首次对标世界技能大赛 [7][46] - 规模庞大,参赛队伍超过百支,涵盖复旦、交大等高校及智元、宇树、新松、开普勒等企业,设立六大赛道、17个赛项,覆盖工业、医疗等多领域 [46] - 首创“三元评审”机制(科学家、AI专家、技能大师),将人类老师-机器学生的经典设定现实化,聚焦实战能力考核 [46] - 大赛作用在于将中国已落地的技术实力摆上台面,形成训练-评估的正反馈循环,并揭示了硅谷可能回避的技术代差 [45][47][48][52] 产业链与生态支撑 - 以上海为代表的机器人产业规模已占全国三分之一,形成了以张江机器人谷为核心的密集产业链,核心部件企业集聚,实现“上下楼就是上下游”,将硬件迭代周期从“月”级缩短至“天”级 [49][50] - 发展由真实工业焊锡、消防救援、医疗康养等场景需求驱动,技术落地目的明确 [50] - 政策、场景与生态协同发力,通过开放百个核心试验场景、推出最高4000万元算力券、支持物理世界常识库建设等系统化产业政策,推动技术与商业双重突破 [50] - 完整的产业链和生态支撑使具身智能从“展示品”变为“量产品”,并赋予举办高规格赛事的底气 [49][51] 行业现状与影响 - 中国具身智能技术展示的内容(如机器人车间操作、长距离行走)在国内已是“日常”而非“作秀”,标志着产业化进入新阶段 [16][18][26][54] - 产业链持续运转,应用场景不断开拓,生态拼图日趋完整,上海是这一进程最先和最完整的呈现者 [55] - 中国在该领域的进展已达到令国际社会不得不高度重视的程度 [56]