量子位
搜索文档
美国AI公司们,开始青睐Made in China的大模型
量子位· 2025-10-29 16:00
文章核心观点 - 美国AI公司正越来越多地采用中国大模型,这一趋势由模型的强大性能和高性价比共同驱动 [14][16][26][34][44] 美国公司采用中国模型的案例 - AI编程产品Windsurf被发现其“神秘模型”实为中国智谱的GLM模型 [2][3][7] - 估值93亿美元的公司Vercel宣布与智谱合作,提供GLM-4.6的API服务,其老板称赞该模型在评测中排名第三且是前五名中唯一开源的 [17][19] - 无服务器AI推理平台Featherless在Kimi K2发布时表示支持其新模型 [22] - Social Capital公司创始人表示已在Groq上开始使用Kimi-K2,并指出OpenAI和Anthropic的模型“太贵了” [30][31][33] 中国模型的优势 - 性能得到认可,例如GLM-4.6在特定评测中排名靠前,以及DeepSeek、Qwen等模型在海外频受关注 [19][27][28] - 性价比高,美国公司因成本考虑转向中国模型,中国厂商在价格竞争上具有优势 [26][31][34][35] - 中国厂商积极推出优惠活动,如快手提供2000万免费token,智谱推出包月折扣,MiniMax和快手延长免费期限等 [36] 行业趋势分析 - AI产业正从技术炫技阶段加速迈向务实应用阶段,成本、速度和可扩展性成为企业大规模部署时的关键考量 [40][41] - 企业的选择表明高性价比的适用技术是商业落地的硬道理,打破了“唯最强模型论” [42] - 全球AI竞争格局正变得更加多元化和激烈,标志着新竞争时代的到来 [43][44]
单条演示即可抓取一切:北大团队突破通用抓取,适配所有灵巧手本体
量子位· 2025-10-29 13:11
核心观点 - 北京大学及BeingBeyond团队提出DemoGrasp框架,通过将多步马尔可夫决策过程重构为基于轨迹编辑的“单步MDP”,解决了灵巧手通用抓取中传统强化学习面临的探索效率低、奖励函数设计复杂等挑战 [1][2][4] 技术原理与核心创新 - 核心创新在于用单条成功演示轨迹替代从零开始的探索,将高维抓取任务转化为演示编辑任务,再通过单步强化学习优化编辑参数 [4][6][7] - 方法以一次成功的抓取演示轨迹为起点,通过对轨迹中的机器人动作进行编辑以适应不同物体与姿态,包括改变腕部位姿以确定抓取位置,调整手指关节角度以确定抓取方式 [4][9][16] - 在紧凑动作空间的单步MDP问题上,使用单张RTX 4090显卡训练24小时即可收敛到成功率大于90% [12] 仿真训练与性能表现 - 在仿真环境中利用IsaacGym创建数千个并行世界进行训练,策略网络根据初始观测输出手腕和手指编辑参数,通过海量试错学会根据不同形状物体输出合适参数 [10][11] - 在权威数据集DexGraspNet(3.4K物体)上,视觉策略成功率达到92%,训练集到测试集的泛化差距仅为1% [17] - 性能显著优于现有方法:在基于状态的设定下,DemoGrasp在训练集、测试集(可见类别)和测试集(未见类别)的成功率分别为95.2%、95.5%和94.4%;在基于视觉的设定下,成功率分别为92.2%、92.3%和90.1% [18] 跨本体扩展与泛化能力 - 无需调整任何训练超参数,成功适配6种不同形态的机器人(五指、四指灵巧手,三指夹爪和平行夹爪),在175个物体上训练后,在多个未见过的物体数据集上达到84.6%的平均成功率 [19][20] - 具备强大的空间泛化能力,可适应大范围的物体初始位置随机化(50cm×50cm) [17] 虚实迁移与真机应用 - 通过视觉模仿学习将策略蒸馏成与真机对齐的RGB策略,实现从仿真到真机的直接迁移 [13][14] - 在真实机器人测试中,使用Franka机械臂和因时灵巧手,成功抓取了110个未见过的物体 [21] - 对于常规大小的物体,抓取成功率均达到90%以上;对于扁平物体和小物体等困难抓取任务,成功率达到70% [22][24] - 支持在杂乱多物体摆放的场景下实现用语言指令引导抓取,真机单次抓取成功率达到84% [24] 技术实现细节 - 采用流匹配生成模型的方法学习从图像观测和机器人本体感知预测动作,训练时使用预训练的ViT提取图像特征并进行充分的域随机化以缩小仿真到真机的视觉差异 [23] - 适配单目/双目、RGB/深度相机等多种相机观测,实验表明双目RGB相机组合效果最佳,能更好地抓取小而薄的物体 [23]
14万!全球首款家务机器人开卖,OpenAI投资,萌脸翘臀会自己充电
量子位· 2025-10-29 13:11
产品发布与规格 - 全球首款开卖的家务人形机器人NEO由1X Technologies推出,今日开售,2026年发货[1][10] - 产品提供米色、灰色与深棕色三种颜色可选,早鸟价格20000美元(约141978元),月租选项为500美元(约3549.45元)[10][11][12] - NEO身高168厘米,体重约30公斤,拥有22个自由度,最大负载68公斤,可搬运约25公斤重物[55][62] - 搭载英伟达边缘计算平台Jetson Thor,续航4小时,运行噪音仅22分贝,采用防水可机洗皮肤[56][61][65][66] 功能与性能 - 内置Redwood AI系统,支持自主完成基础家务,如使用吸尘器打扫、喂宠物、浇花、开关抽屉等[18][20][24][28] - 具备AI伴侣功能,通过语音驱动,可识别环境细节,手势和灯环表达情绪,支持复杂任务拆解[38][39][41][43] - 采用肌腱驱动系统,能耗低且安全,手部灵活性达人类级别,但当前动作仍由远程专家通过VR头显和游戏手柄控制[56][64][72] - 支持自定义家务清单和定时任务,遇到未学会任务时可开启专家模式获得远程指导[30][32] 公司背景与战略 - 1X Technologies原名Halodi Robotics,2014年成立于挪威,最初开发安保机器人,现转向家庭和服务场景[76][82] - 2023年3月获OpenAI创业基金领投2350万美元融资,双方合作开发AI模型,聚焦安全性、柔性外观和具身智能[80][81] - 产品线包括双足机器人NEO和辅助型号EVE,长期布局欧美市场,计划通过软硬件迭代实现消费级价格[82][83][84] - 创始人受科幻启发,愿景是让人类时间回归生活,未来目标为完全自主处理家庭任务[32][74][78] 市场计划与用户反馈 - 2025年在美国率先交付,2027年拓展至全球其他地区,目前中国仅香港可下单[68] - 早期体验显示NEO可完成拿水、放餐具等任务,但叠衣物等灵巧性任务仍需改进,CEO承诺2026年实现自主化[71][73][75] - 部分用户已下单,产品设计强调亲和力,头部和鞋子可定制,针织连体服传递无害感[16][57][66]
黄仁勋台上最强GPU炸场,台下感叹“中国芯片爆发”,瞄准6G投资诺基亚
量子位· 2025-10-29 13:11
英伟达新一代AI计算平台Vera Rubin - 公司发布新一代Vera Rubin超级芯片平台,算力达100PFLOPs,是首代DGX-1性能的100倍 [5] - 核心Vera Rubin超级芯片集成1颗Vera CPU和2颗Rubin GPU,采用HBM4高带宽内存,FP4精度下浮点计算性能达50PFLOPs [9][10][11] - Vera CPU基于Arm架构,拥有88核心及176线程,NVLINK-C2C互联带宽达1.8TB/s [12] - 计算托盘采用全无线100%液冷设计,集成2个Vera CPU和4个Rubin封装,并新增Bluefield 4数据处理器以应对AI上下文处理需求 [14][15] - 首代Vera Rubin NVL144平台计划2026年下半年推出,FP4推理算力3.6Exaflops,FP8训练算力1.2Exaflops,较GB300 NVL72提升3.3倍 [19] - 升级版Rubin Ultra NVL576计划2027年下半年推出,FP4推理算力达15Exaflops,FP8训练算力5Exaflops,较GB300 NVL72提升14倍 [19] 英伟达产品路线图与市场表现 - Blackwell架构已实现量产并大规模部署,Blackwell与Rubin订单总销售额至2026年将达5000亿美元 [23][24] - 公司公布GPU未来三年计划,承诺每年一次重大更新,计划2028年推出Feynman芯片 [25][26] - 公司与美国能源部合作新建7座超算集群,其中Mission和Vision两台基于Vera Rubin的超算预计2027年投入使用 [22] - 发布会后公司股价上涨4.98%至201.03美元每股,盘后达204.43美元创历史新高,市值增长3154亿美元(约3万亿人民币) [65][66] 英伟达量子计算与6G通信布局 - 发布NVQLink互连架构,首次实现AI超算与量子处理器无缝连接,数据传输速度达每秒TB级 [29][31] - NVQLink具备完全可扩展性,可支持从数百到数万量子比特的纠错需求,并推出CUDA-Q开放平台支持QPU与GPU协同工作 [32][33] - 推出专用于6G的NVIDIA Arc产品线,由Grace CPU、Blackwell GPU及ConnectX网络技术构建,旨在创建软件定义可编程计算机 [38][39][40] - 公司与诺基亚合作推出AI原生6G加速计算平台Aerial RAN Computer Pro,并对诺基亚投资10亿美元 [41][45] 行业竞争格局 - AMD获得10亿美元超算订单,其Instinct MI355X加速器板载功率1400瓦,AI性能为现有超算三倍 [50][51] - 高通宣布推出AI200和AI250两款AI推理芯片,主打低总拥有成本和高能效,预计2026及2027年商用 [52] - IBM实现无GPU量子计算方案,运行速度比实际需求快10倍,仅需FPGA芯片配合量子计算机 [55][56][57] - 中国在6G领域取得进展,北邮团队搭建首个6G试验网,北大与港城大合作推出全球首款全频段6G芯片,实现100Gbps传输速率 [60][61][62]
天下苦VAE久矣:阿里高德提出像素空间生成模型训练范式, 彻底告别VAE依赖
量子位· 2025-10-29 10:39
技术突破与核心优势 - 提出名为EPG的新训练框架,通过自监督预训练与端到端微调相结合的方式,彻底消除了生成模型对变分自编码器的依赖[1] - 在ImageNet-256数据集上仅需75次模型前向计算即可达到2.04的FID分数,在ImageNet-512数据集上达到2.35的FID,生成质量优于主流模型[3] - 首次在不依赖VAE及预训练扩散模型权重的前提下,成功在像素空间中端到端训练一致性模型,在ImageNet-256上单步生成即可取得8.82的FID[5] 传统VAE范式的局限性 - VAE训练过程复杂,需要在图像压缩率与重建质量之间取得精妙平衡,极具挑战性[6] - 当需要在新的领域微调生成模型时,若预训练的VAE表现不佳,必须连同生成模型一起微调,这会显著增加训练成本和开发周期[6] 训练效率与成本 - EPG框架总训练开销显著低于主流模型DiT,预训练/VAE训练时间为57小时,而DiT为160小时;微调时间为139小时,而DiT预估为506小时[7] - 训练方法借鉴计算机视觉的经典范式,将复杂生成任务解耦为两个更易处理的阶段:自监督预训练和端到端微调,极大简化了训练流程[7][14] 两阶段训练方法详解 - 第一阶段自监督预训练专注于解耦表征学习与像素重建,模型仅训练编码器部分,通过对比损失和表征一致性损失从带噪图像中提取高质量视觉特征[8][9] - 第二阶段端到端微调将预训练好的编码器与随机初始化的解码器拼接,直接使用扩散模型或一致性模型的损失函数进行微调,无缝衔接下游生成任务[13] 性能基准对比 - 在ImageNet-256任务上,EPG/16模型的FID为2.04,优于隐空间模型如DiT-XL/2的2.27和SiT-XL/2的2.06,也优于其他像素空间模型[16] - 在ImageNet-512任务上,EPG/32模型在800个周期后FID达到2.35,优于对比的隐空间和像素空间模型[16] - 在一致性模型训练上,EPG在像素空间单步生成FID为8.82,显著优于隐空间模型如Shortcut-XL/2的7.80[17] 推理性能与可扩展性 - 基于EPG训练的扩散模型在推理时仅需75次模型前向计算即可达到最优效果,步数远低于其他方法[18] - 模型在256x256和512x512分辨率图像上均能保持一致的生成速度,展现了优异的可扩展性[18]
剪映前AI产品负责人创业多模态Agent,做懂上下文的007乙方,成立半月融资数百万美元
量子位· 2025-10-29 10:39
公司概况与融资 - 创始人廖谦于2024年8月底成立新公司“极致上下文”,公司成立仅半个月即获得硅谷美元基金HT Investment与BV百度风投的数百万美元投资 [1][2][4][10] - 公司名称源于对AI发展的理解,即AI应能深度理解并呼应用户上下文,目标是构建“更多的Context,更少的Control”的公司文化 [5][6] 创始人背景 - 创始人廖谦拥有计算机视觉技术背景,职业经历涵盖算法、产品、商业化完整路径,以及国内与海外市场、大厂与0到1创业经验 [8][9][27] - 曾任职于腾讯天美游戏工作室、腾讯云、字节跳动火山引擎,并作为发起人孵化剪映海项目Pippit(月活超百万),后加入生数科技担任产品副总裁,主导Vidu产品并带领超百人团队 [28][29][30][31][32][33] 产品战略与目标 - 公司首要目标是打造面向营销场景的多模态Agent,提供从创意、脚本到视频生成、编辑的端到端能力,因营销场景需求明确、效果可量化、付费意愿强 [3][11][12][13][18] - 中长期规划是构建AI时代的信息表达系统,让任何人(品牌或个体)实现个性化自我表达,未来能力可拓展至教育、生活方式、娱乐等领域 [19][20][21][22] 商业模式与用户定位 - 采用“预期思维”或“结果导向”的Agent模式,用户无需学习技能,Agent像专业Agency一样理解用户诉求,全流程自动完成内容生成 [14][15] - 目标用户是“大概知道自己要什么,但不需要懂怎么做的人”,产品核心价值在于持续降低用户的使用成本、理解成本与价格成本 [16] 行业机遇与技术判断 - 当前技术周期进入拐点,语义理解、镜头语言、画面真实度全面提升,Google Veo3和Sora 2等技术已达“可用”临界点,重点是将能力转化为真实产品价值 [23][24][25] - 巨头互殴(如Sora 2侵蚀抖音、TikTok核心业务)为初创公司提供进攻窗口期,可定义新内容形态、协作方式及信息分发逻辑 [36][37][38][39] - AI视频领域,“一致性”是绝对可预见的提升方向,包括画面角色一致性、音色一致性及画面美学(构图、光影等)待解决 [44]
OpenAI公开未来路线图!具体到28年3月AI研究员将完全自主,奥特曼承认“关于GPT-4o我们搞砸了”
量子位· 2025-10-29 10:39
公司战略与组织架构 - 公司完成重要组织架构调整,新架构核心为非营利性的OpenAI基金会,该基金会将完全控制下属的公益公司OpenAI Group [28][31][34] - 基金会初始持有公益公司约26%股权,并可通过认股权证增加持股比例,公司希望该基金会成为史上最大的非营利组织 [34][35][36] - 基金会首个重大承诺是投入250亿美元用于AI辅助疾病研究,并将重点投入名为“AI Resilience”的新领域,其范围比传统AI安全更广 [36][37][38] 研究目标与技术路线图 - 公司首次公开内部研究目标时间表,核心目标是于2028年3月实现完全自主的AI研究员 [2][15] - 阶段性目标包括在2026年9月实现AI研究实习生级别的能力,能通过大量计算显著加速研究人员工作 [15] - 公司相信深度学习系统距离超级智能(在大量关键领域比人类更聪明的系统)可能不到十年 [17] - 量化AI能力进展的方式是看模型能完成的任务所需时间跨度,从最初几秒延长至现在五小时(如击败顶尖选手)[17] 技术进展与安全架构 - 公司详细介绍一项名为“思维链忠实度”的新技术,在训练时不监督模型内部推理过程,以保持其对实际想法的忠实表达 [20][21][22] - 该技术瞄准五层AI安全架构中最顶层的价值对齐问题,旨在解决AI面对不明确或冲突目标时的行为 [23][24][26] - 此方法已在内部广泛使用,用于理解模型训练和倾向演变,并能通过查看未受监督的思维链检测潜在欺骗行为 [27] 基础设施与算力规划 - 公司首次公开基础设施投资规模,目前已承诺的基础设施建设总计超过30GW,总财务义务约1.4万亿美元 [41] - 长期目标是建立基础设施工厂,每周创造1GW算力,并希望将每吉瓦成本在五年生命周期内降至200亿美元左右 [41] - 为实现目标,公司考虑投入机器人技术帮助建设数据中心,并重点介绍了进展最快的德克萨斯州阿比林数据中心,该工地每日有数千人施工 [42][43] 产品哲学与商业模式 - 公司思维发生转变,从将AGI视为“神谕”转变为重点创造工具,让人们用这些工具创造自己的未来 [9][10][11] - 公司承诺只要商业模式有效,就致力于将最好技术放入免费层,原因是单位智能的价格每年下降约40倍,且越便宜人们越想使用 [51][52][53] - 公司认为ChatGPT与使命一致,让每个人无需技术背景即可使用强大AI,但聊天界面不会是唯一界面,未来将向环境感知、总是存在的伙伴方向演进 [55][56][59] 公开问答要点 - 关于技术成瘾,公司表示若产品(如Sora)导致用户刷屏上瘾而非用于创作,将会取消该产品 [44] - 关于AI导致失业,公司预计很多工作将在未来几年自动化,但新知识、新娱乐和新智能将为人们提供意义和成就感 [45] - 关于内部模型领先程度,公司对下一代模型有强期望,预计未来几个月和一年有快速进展,但未隐瞒极其疯狂的东西,目前是拥有众多组件待组合 [46][47][48]
高通新款云端芯片公开!借推理抢英伟达蛋糕,市值一夜暴涨197.4亿美元
量子位· 2025-10-28 22:24
公司战略转型 - 高通宣布推出AI200和AI250两款AI芯片,正式进军数据中心市场[1][2] - 公司从端侧/轻量级推理转向大型数据中心市场,撕掉端侧标签[5][6] - 此次转型基于公司在手机芯片领域的技术积累,核心计算单元源自Hexagon神经处理单元[17] 产品技术规格 - AI200预计2026年商用,支持作为独立芯片或整机架服务器系统提供,每张加速卡支持768GB LPDDR内存[11][12] - AI250计划2027年推出,采用近存计算的全新内存架构,带来超过10倍的有效内存带宽提升并显著降低功耗[13] - 两种机架方案均支持直液冷散热、PCIe与以太网扩展、机密计算等企业级功能,面向160kW级别高密度机架场景[13] 市场竞争格局 - 消息公布后高通股价一度飙升超20%,创自2019年以来最大单日涨幅[3] - 目前数据中心市场英伟达占据90%以上份额,但巨头们都在寻找替代方案[21] - 麦肯锡预测到2030年全球数据中心投资将达到6.7万亿美元[20] 市场进展与规划 - 高通已获得沙特AI初创公司Humain订单,计划从2026年起部署基于AI200/AI250的机架级算力系统,总功率达200兆瓦[23] - 公司未来将以每年一代的节奏推进数据中心产品路线图,持续提升AI推理性能与能效表现[14] - 同时推进面向超大规模推理的端到端软件栈,支持主流框架与工具链以降低客户总拥有成本[13]
刚刚,OpenAI股改完成,非营利主体更名
量子位· 2025-10-28 22:24
资本结构重组 - OpenAI已完成资本结构重组,为上市铺平道路[1][2] - 重组后非营利主体更名为OpenAI Foundation,持有营利实体26%股份,该实体估值约1300亿美元[4] - 员工和投资者合计持有营利实体47%股份,微软持有32.5%股份[5][6] - OpenAI已同意额外购买价值2500万美元的微软Azure云服务[6] 股权结构与市场反应 - 软银已批准向OpenAI投资225亿美元[2] - 消息宣布后,微软股价在美股盘前交易中一度上涨3.5%[7] - 在营利实体达到特定估值里程碑后,OpenAI Foundation将获得额外所有权[13] 公司使命与战略投资 - OpenAI保持其非营利使命,即"确保通用人工智能能造福全人类"[10][11] - OpenAI Foundation计划投入250亿美元,重点投资于健康和治愈疾病、以及针对AI弹性的技术解决方案两大领域[14][15] - 投资目标基于5000万美元的"以人为本人工智能基金"及非营利委员会的建议[16] - 公司强调最强大的技术必须以反映全球共同利益的方式开发[17] 合作协议与未来活动 - 微软表示,当OpenAI宣布达成AGI时,将由独立专家小组进行验证,在此之前的收益分成协议继续有效[19] - 公司管理层将于太平洋时间10月28日上午10:30进行关于"OpenAI未来"的直播问答[24]
高维时序预测的ImageNet时刻!首个高维时序预测基准发布,模型领跑多数据集SOTA
量子位· 2025-10-28 16:04
文章核心观点 - 时间序列预测领域正从处理几百维的低维数据集转向处理变量数高达两万的高维复杂系统,这标志着该领域进入“高维赛场”[1][6] - 全华人团队发布了业界首个专为高维时间序列预测设计的大规模基准Time-HD,并配套开源框架Time-HD-Lib,系统性地填补了高维时序预测评测的空白[2][3] - 团队同时提出了新型预测模型U-Cast,该模型在多个数据集上能将预测误差降低15%,训练速度提升近一倍,展现出显著的性能与效率优势[4][37] Time-HD基准的核心特性 - 基准涵盖16个高维数据集,变量数量范围从1,161到20,000,显著高于常用基准(如ETT、Traffic等通常仅包含7-862个通道)[3][11][12] - 数据来源兼具模拟数据集(如Neurolib和SIRS)和真实世界观测数据,支持科学建模与真实场景泛化能力评估[14] - 提供不同规模的数据集,包含4个GB级大规模、8个数百MB级中等规模和4个数十MB级小规模数据集,适应从单GPU到分布式训练的不同计算需求[15][16] - 覆盖从毫秒到天的多种采样频率,并采用与频率对应的预测长度,更贴近实际预测需求[17][18] - 数据集来自神经科学、能源、云计算、气象、金融等10个不同领域,支持通用型预测模型的开发与评估[19][20] U-Cast模型的技术创新与性能 - 模型采用层级式潜查询网络,通过一小组可学习的潜查询从高维变量中筛选并压缩关键信息,避免了传统全局注意力计算的高计算成本[22][25][35] - 引入全秩正则化机制,通过约束表示空间保持高秩多样性来减少通道间冗余信息,促使模型学习更独立且结构化的特征表示[30][31][41] - 在16个数据集的评测中,U-Cast在12个数据集的MSE指标上排名第一,与iTransformer相比平均预测误差降低15%[36] - 在达到最低预测误差的同时,U-Cast的训练速度(12ms/iter)和显存占用(0.2GB)远低于iTransformer(20.8ms/iter, 2.8GB),效率提升显著[37] 对行业发展的意义 - Time-HD基准的发布为时序预测领域提供了类似CV中ImageNet或NLP中GLUE的大规模评测基础,有望推动该领域取得关键突破[9][43] - 高维环境能真正释放通道依赖型模型的价值,而此前在低维数据集上此类模型相比通道独立型模型优势不明显[9] - 此项研究为探索更大规模、更真实场景的时序预测开辟了新方向,未来高维时序预测研究有望迎来新一轮创新浪潮[42][43]