量子位
搜索文档
全球首个具身智能开放平台来了!让大模型长出“身体”,像人一样自然表达交互
量子位· 2025-10-29 17:30
魔珐星云平台核心特点 - 魔珐科技发布全球首个面向开发者的具身智能3D数字人开放平台——魔珐星云 [3][4] - 平台可根据文本实时生成3D数字人的语音、表情、眼神、手势和身体动作,实现自然流畅的多模态交互 [8] - 平台具备低于1.5秒的端到端延迟、千万级并发能力,并可在百元级算力架构上运行 [6] 平台三大应用方向 - 为大模型和AI智能体提供身体和表达能力,使其能通过语音、表情和动作与人类互动 [11] - 将手机、平板、电视、车载屏幕等终端升级为具身智能界面,使屏幕从被动信息载体变为主动服务者 [12] - 驱动人形机器人实现自然沟通,通过虚拟端生成关节级运动并映射到机器人,使其能通过语音、眼神、手势交流 [14][15] 技术架构与核心优势 - 以自研文生多模态3D大模型为核心,将语义、语音、表情、动作纳入统一生成体系,实现多模态统一驱动 [27] - 采用创新的云-端拆分架构,云端生成语音和动作参数,端侧AI直接渲染画面,无需传统引擎与GPU支持,实现带宽小、延迟低、算力省 [28] - 平台可在RK3566、3588等百元级芯片上流畅运行,并适配国产信创芯片,支持多终端和中低端设备 [28] 公司能力与数据积累 - 团队自2018年起积累数千小时的高质量3D动画资产,为模型表现力提供关键支撑 [30][31] - 公司具备完整的感知、理解、行动三层能力,可为不同客户提供从模型到驱动的一体化解决方案 [33] - 公司已完成从项目到产品再到平台的转变,将3D数字人能力全面开放给开发者和企业 [32] 行业定位与差异化 - 与传统数字人平台不同,魔珐星云基于3D多模态生成模型驱动互动,而非合成表演,使AI交流具备身体语言层次感 [36][38] - 与Sora等视频生成模型不同,魔珐星云目标为驱动存在,通过低延迟和轻量架构实现语义、语音、动作一体化实时驱动 [39][40] - 平台定位为具身智能3D数字人,旨在让任何屏幕、界面、应用都能拥有身体,以自然方式进行交互和服务 [41][45] 行业影响与演进路径 - 魔珐星云弥合了虚拟世界大模型“有脑无身”和现实世界机器人“有身无魂”的鸿沟,贯通虚拟具身和真实具身 [54] - 平台重新审视“具身智能”概念,强调身体在人机交互与情感表达中的关键作用,超越对机器人劳动的单一关注 [55][57] - AI发展可视为具身演进路线:文字AI(无具身)→语音助手(半具身)→数字人(虚拟具身)→机器人(真实具身) [53]
不好美国要捧杀了!新研究:中国正在成为全球科学领导者
量子位· 2025-10-29 17:30
答案揭晓:中美科技实力大PK,以及得出的结论是—— 中国正在成为全球科学领导者 。 一水 发自 凹非寺 量子位 | 公众号 QbitAI 发表于2024年6月,却在当下登上《美国国家科学院院刊》,然后还被硅谷热议了。 究竟是什么论文? 和以往比比论文量、引用数不同,这项研究通过引入机器学习模型,分析了600万份论文的作者署名模式、通讯作者身份、机构影响力等多重 线索,核心评估了 "团队领导者" 这一指标。 研究人员表示,通过关注中国科学家在跨国合作中权力地位的变化: (我们) 为研究中国在国际科学领域中的地位提供了一个新视角。 而且他们还带来了一系列出人意料的发现——截至2023年,中美合作中中国领导者占比升至45%,且预计在2027-2028年达到相同水平。 预计到2030年,中国将在AI、半导体、能源和材料科学等战略领域实现与美国平起平坐的领导地位。 就是说,比人们预想的更快,中国将在科研力量上超越美国了? u1s1,虽然经彭博社报道后,外国网友们都在自嘲:西方科学无可争议的主导地位时代即将终结。 咳咳,究竟是客观结论还是战略"捧杀",还是先来看看论文是如何得出上述结论的吧—— 用AI模型分析600万篇论 ...
人工智能年度榜单火热报名中!五大奖项,寻找AI+时代的先锋力量
量子位· 2025-10-29 17:30
组委会 发自 凹非寺 量子位|公众号 QbitAI 为了让更多从业者感受智能浪潮的跃迁,也为了给予更多同行同路人掌声与鼓舞,我们将正式启动 「2025人工智能年度榜单」评选报名 。 本次评选将从 企业 、 产品 、 人物 三大维度,设立五类奖项。欢迎企业踊跃报名! 让我们共同见证年度之星,点亮未来的方向。 企业榜 产品榜 详细评选标准及报名方式如下。 2025 人工智能年度领航企业 将面向中国人工智能领域,评选出最具综合实力的企业, 参选条件 : 2025 人工智能年度 领航企业 2025 人工智能年度 潜力创业公司 2025 人工智能年度 杰出产品 2025 人工智能年度 杰出解决方案 1、注册地在中国,或主营业务主要面向中国市场; 2、主营业务属于人工智能及相关产业,或已将人工智能广泛应用于主营业务,并在细分领域居于行业领先地位; 评选标准 : 人物榜 2025 人工智能年度 焦点人物 2025 人工智能年度潜力创业公司 聚焦于中国人工智能领域创新创业力量,将评选出最具投资价值和发展潜力的AI创业公司, 参选条件 : 评选标准 : 3、具备成熟的产品或服务,已获得实际客户应用及市场认可; 4、近一年在技术 ...
阿里新研究:统一了VLA和世界模型
量子位· 2025-10-29 17:30
时令 发自 凹非寺 量子位 | 公众号 QbitAI 如果说视觉让AI看见世界,动作让AI改变世界,那么—— WorldVLA正在让AI理解世界。 在该框架下, 实验结果表明,WorldVLA的表现显著优于独立的动作模型与世界模型,充分体现了二者之间的相互增强效应。 | Model Type | Discrete | Continous | Input | Output | | --- | --- | --- | --- | --- | | Action Model | OpenVLA (Kim et al., 2024) | TO (Black et al., 2024) | T + V | A | | Video Prediction Model | | MAGVIT (Yu et al., 2023) SVD (Blattmann et al., 2023) | T + V | V | | World Model | iVideoGPT (Wu et al., 2025) | DWS (He et al., 2025) | T + V + A V | | | Action World Model | W ...
美国AI公司们,开始青睐Made in China的大模型
量子位· 2025-10-29 16:00
文章核心观点 - 美国AI公司正越来越多地采用中国大模型,这一趋势由模型的强大性能和高性价比共同驱动 [14][16][26][34][44] 美国公司采用中国模型的案例 - AI编程产品Windsurf被发现其“神秘模型”实为中国智谱的GLM模型 [2][3][7] - 估值93亿美元的公司Vercel宣布与智谱合作,提供GLM-4.6的API服务,其老板称赞该模型在评测中排名第三且是前五名中唯一开源的 [17][19] - 无服务器AI推理平台Featherless在Kimi K2发布时表示支持其新模型 [22] - Social Capital公司创始人表示已在Groq上开始使用Kimi-K2,并指出OpenAI和Anthropic的模型“太贵了” [30][31][33] 中国模型的优势 - 性能得到认可,例如GLM-4.6在特定评测中排名靠前,以及DeepSeek、Qwen等模型在海外频受关注 [19][27][28] - 性价比高,美国公司因成本考虑转向中国模型,中国厂商在价格竞争上具有优势 [26][31][34][35] - 中国厂商积极推出优惠活动,如快手提供2000万免费token,智谱推出包月折扣,MiniMax和快手延长免费期限等 [36] 行业趋势分析 - AI产业正从技术炫技阶段加速迈向务实应用阶段,成本、速度和可扩展性成为企业大规模部署时的关键考量 [40][41] - 企业的选择表明高性价比的适用技术是商业落地的硬道理,打破了“唯最强模型论” [42] - 全球AI竞争格局正变得更加多元化和激烈,标志着新竞争时代的到来 [43][44]
单条演示即可抓取一切:北大团队突破通用抓取,适配所有灵巧手本体
量子位· 2025-10-29 13:11
核心观点 - 北京大学及BeingBeyond团队提出DemoGrasp框架,通过将多步马尔可夫决策过程重构为基于轨迹编辑的“单步MDP”,解决了灵巧手通用抓取中传统强化学习面临的探索效率低、奖励函数设计复杂等挑战 [1][2][4] 技术原理与核心创新 - 核心创新在于用单条成功演示轨迹替代从零开始的探索,将高维抓取任务转化为演示编辑任务,再通过单步强化学习优化编辑参数 [4][6][7] - 方法以一次成功的抓取演示轨迹为起点,通过对轨迹中的机器人动作进行编辑以适应不同物体与姿态,包括改变腕部位姿以确定抓取位置,调整手指关节角度以确定抓取方式 [4][9][16] - 在紧凑动作空间的单步MDP问题上,使用单张RTX 4090显卡训练24小时即可收敛到成功率大于90% [12] 仿真训练与性能表现 - 在仿真环境中利用IsaacGym创建数千个并行世界进行训练,策略网络根据初始观测输出手腕和手指编辑参数,通过海量试错学会根据不同形状物体输出合适参数 [10][11] - 在权威数据集DexGraspNet(3.4K物体)上,视觉策略成功率达到92%,训练集到测试集的泛化差距仅为1% [17] - 性能显著优于现有方法:在基于状态的设定下,DemoGrasp在训练集、测试集(可见类别)和测试集(未见类别)的成功率分别为95.2%、95.5%和94.4%;在基于视觉的设定下,成功率分别为92.2%、92.3%和90.1% [18] 跨本体扩展与泛化能力 - 无需调整任何训练超参数,成功适配6种不同形态的机器人(五指、四指灵巧手,三指夹爪和平行夹爪),在175个物体上训练后,在多个未见过的物体数据集上达到84.6%的平均成功率 [19][20] - 具备强大的空间泛化能力,可适应大范围的物体初始位置随机化(50cm×50cm) [17] 虚实迁移与真机应用 - 通过视觉模仿学习将策略蒸馏成与真机对齐的RGB策略,实现从仿真到真机的直接迁移 [13][14] - 在真实机器人测试中,使用Franka机械臂和因时灵巧手,成功抓取了110个未见过的物体 [21] - 对于常规大小的物体,抓取成功率均达到90%以上;对于扁平物体和小物体等困难抓取任务,成功率达到70% [22][24] - 支持在杂乱多物体摆放的场景下实现用语言指令引导抓取,真机单次抓取成功率达到84% [24] 技术实现细节 - 采用流匹配生成模型的方法学习从图像观测和机器人本体感知预测动作,训练时使用预训练的ViT提取图像特征并进行充分的域随机化以缩小仿真到真机的视觉差异 [23] - 适配单目/双目、RGB/深度相机等多种相机观测,实验表明双目RGB相机组合效果最佳,能更好地抓取小而薄的物体 [23]
14万!全球首款家务机器人开卖,OpenAI投资,萌脸翘臀会自己充电
量子位· 2025-10-29 13:11
产品发布与规格 - 全球首款开卖的家务人形机器人NEO由1X Technologies推出,今日开售,2026年发货[1][10] - 产品提供米色、灰色与深棕色三种颜色可选,早鸟价格20000美元(约141978元),月租选项为500美元(约3549.45元)[10][11][12] - NEO身高168厘米,体重约30公斤,拥有22个自由度,最大负载68公斤,可搬运约25公斤重物[55][62] - 搭载英伟达边缘计算平台Jetson Thor,续航4小时,运行噪音仅22分贝,采用防水可机洗皮肤[56][61][65][66] 功能与性能 - 内置Redwood AI系统,支持自主完成基础家务,如使用吸尘器打扫、喂宠物、浇花、开关抽屉等[18][20][24][28] - 具备AI伴侣功能,通过语音驱动,可识别环境细节,手势和灯环表达情绪,支持复杂任务拆解[38][39][41][43] - 采用肌腱驱动系统,能耗低且安全,手部灵活性达人类级别,但当前动作仍由远程专家通过VR头显和游戏手柄控制[56][64][72] - 支持自定义家务清单和定时任务,遇到未学会任务时可开启专家模式获得远程指导[30][32] 公司背景与战略 - 1X Technologies原名Halodi Robotics,2014年成立于挪威,最初开发安保机器人,现转向家庭和服务场景[76][82] - 2023年3月获OpenAI创业基金领投2350万美元融资,双方合作开发AI模型,聚焦安全性、柔性外观和具身智能[80][81] - 产品线包括双足机器人NEO和辅助型号EVE,长期布局欧美市场,计划通过软硬件迭代实现消费级价格[82][83][84] - 创始人受科幻启发,愿景是让人类时间回归生活,未来目标为完全自主处理家庭任务[32][74][78] 市场计划与用户反馈 - 2025年在美国率先交付,2027年拓展至全球其他地区,目前中国仅香港可下单[68] - 早期体验显示NEO可完成拿水、放餐具等任务,但叠衣物等灵巧性任务仍需改进,CEO承诺2026年实现自主化[71][73][75] - 部分用户已下单,产品设计强调亲和力,头部和鞋子可定制,针织连体服传递无害感[16][57][66]
黄仁勋台上最强GPU炸场,台下感叹“中国芯片爆发”,瞄准6G投资诺基亚
量子位· 2025-10-29 13:11
英伟达新一代AI计算平台Vera Rubin - 公司发布新一代Vera Rubin超级芯片平台,算力达100PFLOPs,是首代DGX-1性能的100倍 [5] - 核心Vera Rubin超级芯片集成1颗Vera CPU和2颗Rubin GPU,采用HBM4高带宽内存,FP4精度下浮点计算性能达50PFLOPs [9][10][11] - Vera CPU基于Arm架构,拥有88核心及176线程,NVLINK-C2C互联带宽达1.8TB/s [12] - 计算托盘采用全无线100%液冷设计,集成2个Vera CPU和4个Rubin封装,并新增Bluefield 4数据处理器以应对AI上下文处理需求 [14][15] - 首代Vera Rubin NVL144平台计划2026年下半年推出,FP4推理算力3.6Exaflops,FP8训练算力1.2Exaflops,较GB300 NVL72提升3.3倍 [19] - 升级版Rubin Ultra NVL576计划2027年下半年推出,FP4推理算力达15Exaflops,FP8训练算力5Exaflops,较GB300 NVL72提升14倍 [19] 英伟达产品路线图与市场表现 - Blackwell架构已实现量产并大规模部署,Blackwell与Rubin订单总销售额至2026年将达5000亿美元 [23][24] - 公司公布GPU未来三年计划,承诺每年一次重大更新,计划2028年推出Feynman芯片 [25][26] - 公司与美国能源部合作新建7座超算集群,其中Mission和Vision两台基于Vera Rubin的超算预计2027年投入使用 [22] - 发布会后公司股价上涨4.98%至201.03美元每股,盘后达204.43美元创历史新高,市值增长3154亿美元(约3万亿人民币) [65][66] 英伟达量子计算与6G通信布局 - 发布NVQLink互连架构,首次实现AI超算与量子处理器无缝连接,数据传输速度达每秒TB级 [29][31] - NVQLink具备完全可扩展性,可支持从数百到数万量子比特的纠错需求,并推出CUDA-Q开放平台支持QPU与GPU协同工作 [32][33] - 推出专用于6G的NVIDIA Arc产品线,由Grace CPU、Blackwell GPU及ConnectX网络技术构建,旨在创建软件定义可编程计算机 [38][39][40] - 公司与诺基亚合作推出AI原生6G加速计算平台Aerial RAN Computer Pro,并对诺基亚投资10亿美元 [41][45] 行业竞争格局 - AMD获得10亿美元超算订单,其Instinct MI355X加速器板载功率1400瓦,AI性能为现有超算三倍 [50][51] - 高通宣布推出AI200和AI250两款AI推理芯片,主打低总拥有成本和高能效,预计2026及2027年商用 [52] - IBM实现无GPU量子计算方案,运行速度比实际需求快10倍,仅需FPGA芯片配合量子计算机 [55][56][57] - 中国在6G领域取得进展,北邮团队搭建首个6G试验网,北大与港城大合作推出全球首款全频段6G芯片,实现100Gbps传输速率 [60][61][62]
天下苦VAE久矣:阿里高德提出像素空间生成模型训练范式, 彻底告别VAE依赖
量子位· 2025-10-29 10:39
允中 发自 凹非寺 量子位 | 公众号 QbitAI 近年来,基于扩散模型的图像生成技术发展迅猛,催生了Stable Diffusion、Midjourney等一系列强大的文生图应用。然而,当前主流的训练 范式普遍依赖一个核心组件——变分自编码器(VAE),这也带来了长久以来困扰研究者们的几个问题: 为了从根本上解决VAE带来的诸多限制,EPG中提出通过 自监督预训练(SSL Pre-training)与端到端微调(End-to-End Fine-tuning) 相结合 的方式,彻底去除了生成模型对VAE的依赖。 其核心优势在于: 训练效率与生成效果双重突破:在ImageNet-256和512数据集上,EPG在训练效率远超基于VAE的主流模型DiT/SiT的同时,仅仅通过75次 模型前向计算就取得了更优的生成质量,FID分别达到了2.04和2.35。 首次实现像素空间的一致性模型训练:在不依赖VAE及 预训练的扩散模型权重 的前提下,EPG首次成功在像素空间中端到端地训练了一致性 模型(Consistency Model),在ImageNet-256上仅需单步即可取得8.82的FID。 训练复杂性:VAE旨在 ...
剪映前AI产品负责人创业多模态Agent,做懂上下文的007乙方,成立半月融资数百万美元
量子位· 2025-10-29 10:39
生数科技前产品副总裁廖谦创业了 。 在此之前,他 还 先后担任过 字节剪映与火山引擎前AIGC产品负责人。 8月底从老东家离职后, 公司成立仅半个月 ,就已经拿下了硅谷美元基金HT Investment与BV百度风投的数百万美元投资。 他要做的是一件看起来很"产品人"的事—— 打造面向营销场景的多模态Agent,同时将逐步构建新时代AI信息表达系统。 衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 他给公司起名为 极致上下文 ( Apex Context) 。 这个名字来自他对下一阶段AI发展的理解:AI应该能深度理解并呼应用户的上下文,让生成的内容更精准、更贴合预期。 从人文一点的角度出发,他说这个名字背后是极致上下文的公司文化,希望它有"更多的Context,更少的Control"。 廖谦学计算机视觉技术出身,一路打拼,创业前最后一份工作的title是"产品副总裁"。 早年,他在鹅厂、字节推动很多项目从0到1,也在生数科技这样的初创AI公司留下拿得出手的漂亮成绩。 问起他对自己的评价,廖谦说从最早期的生成式AI,到如今多模态阶段,自己一路从算法到产品,再到商业化的完整路径都走过;做过国内市 场,也做 ...