量子位

搜索文档
9B“小”模型干了票“大”的:性能超8倍参数模型,拿下23项SOTA | 智谱开源
量子位· 2025-07-02 12:46
模型性能与突破 - GLM-4.1V-9B-Thinking在28项评测中拿下23个SOTA,成为10B参数级别效果最好的视觉语言模型(VLM)[3] - 在18项评测中,该模型性能可与8倍参数量的Qwen-2.5-VL-72B竞争甚至超越[3] - 核心突破在于引入思维链(Chain-of-Thought)推理机制和课程采样强化学习(RLCS)[4] 实际应用表现 - 成功解析西班牙超现实主义画家达利的《记忆的永恒》,识别画作中违背物理规律的视觉符号[11] - 准确解答高考数学真题,在多个大模型易翻车的题目中给出简洁精准答案[12][15] - 处理看时钟和日期问题时表现接近人类水平(时间判断存在1分钟偏差)[16][19] - 具备看手相等生活场景应用能力[20][22] 技术架构创新 - 视觉编码器采用AIMv2-Huge架构,使用三维卷积处理视频,静态图片通过复制模拟视频输入[26] - 新增二维旋转位置编码,支持宽高比超200:1的画面和4K以上分辨率[27] - 语言解码器升级为三维旋转位置编码,增强空间关系理解能力[28] - 多层感知机适配器作为视觉与语言模块的桥梁[28] 训练方法论 - 预训练阶段采用双通道并行,12万步训练,批量大小1536,输入长度8192,覆盖图文混合/OCR/定位等多类型数据[31] - 监督微调阶段使用高质量思维链数据,输入长度扩展至32768,批量32,强化复杂因果关系推理[36] - 课程采样强化学习(RLCS)结合RLVR和RLHF,采用由简至难的课程学习策略[40] 商业化进展 - 获得浦东创投集团和张江集团10亿元投资,近期将完成首次交割[5] - 模型已在Github/ModelScope/Hugging Face开源,同步上线MaaS平台API接口[41][42] 核心能力清单 - 超长视频解析(2小时时长分析)[32] - 智能读图问答与理科解题(数学/物理)[32] - 图文识别转换(OCR/表格结构化)[32] - 专业文档处理(金融/政务关键信息提取)[32] - 图像定位标注与GUI界面操作[32] - 看图写代码(前端网页自动生成)[32]
刷新硅谷融资纪录!华人具身智能团队刚毕业融资过7亿元,平均年龄不到28岁
量子位· 2025-07-02 10:02
融资里程碑 - Genesis AI完成1.05亿美元种子轮融资 创硅谷华人团队最大规模种子轮纪录 超越Pika的5500万美元[2] - 同时成为硅谷具身智能赛道最大种子轮 超过Physical Intelligence(7000万美元)和Skild(1450万美元)[3] - 投资方包括Khosla Ventures、Eclipse、谷歌前董事长Eric Schmidt等顶级机构和个人[9] 创始团队背景 - 团队平均年龄不到28岁 由刚毕业的博士科学家组成 非传统教授带队模式[4][12] - CEO周衔为CMU机器人学博士 生成式仿真提出者 Genesis项目负责人[13] - 联合创始人Theo Gervet曾任Mistral AI多模态模型负责人[14] - 核心成员包括英伟达GEAR系统负责人许臻佳(Diffusion Policy作者)[16][17]、MIT博士王尊玄[19]、IPC算法发明人李旻辰[21][22][23]等 核心技术优势 - 开源的Genesis物理引擎可精准模拟物理世界生成合成数据 解决机器人AI训练数据难题[6][8][9] - 引擎发布半年获25.4k star 成GitHub最大具身智能开源项目[32] - 全栈技术整合高保真模拟、多模态生成模型和真实数据收集 推动通用机器人发展[34][35][36] 商业模式与规划 - 基于物理引擎开发通用机器人基础模型和硬件平台 目标实现"无限物理劳动自动化"[9] - 当前行业机器人/人类比例低于1:30 公司技术有望突破该瓶颈[11] - 计划2024年底向社区发布首个具身智能模型[38]
国产AI眼镜现状,这里有份沙龙实录|量子位AI沙龙
量子位· 2025-07-02 10:02
AI眼镜行业现状与挑战 - 行业普遍认为AI眼镜正处于"iPhone时刻",但关键挑战才刚开始显现 [1][2] - 主要技术瓶颈包括:每天需充电2-3次的续航问题、常在线能力不足、国内厂商易被Meta带偏技术路线 [3][7] - 行业平均电池容量仅300毫安,单SOC模式下续航问题更突出 [10] - 用户期望的即时响应、持续感知与续航存在根本性矛盾 [10] 技术解决方案 - 小米Vela推出异构双芯融合系统,分为内核层、服务框架层和应用层 [10] - 任务卸载技术覆盖显示/音频/连接模块,显示功耗节省90%,音频节省75%,蓝牙节省60% [12] - 快应用框架启动时间400毫秒,单应用内存占用仅450KB,覆盖设备超15亿台 [12] - 百度智能云构建云脑框架,端侧SDK仅300KB,音频延迟1.3秒,视觉处理2秒内 [23][24] 市场格局与产品定位 - 市场参与者分为三类:音频耳机厂商、整备型企业和营销渠道企业 [20] - 语音摄像及轻交互路线是未来2-3年主流方案,目标替代手机20-30%场景 [18] - Ray-Ban Meta系列销量已达400多万副,年底目标1000万副 [15] - 国内AI眼镜用户接受度比去年提升3-5倍,影目GO2销量同比翻5倍 [56][57] 创业公司差异化路径 - 李未可转向音频眼镜市场,构建ZeroAgent智能体系统实现多模型路由 [30][32] - 影目科技推出全球首款1080p一体式智能眼镜INMO AIR3 [40] - 虚拟名片系统实现AI社交,AI导览打造"实体元宇宙"场景 [41][43] - 创业公司需在硬件设计领先3-5个月,深度理解大模型软硬结合 [68] 价格与市场预测 - 专家预测AI眼镜3年内可实现全民标配 [60] - 大众市场定价需在2000元以内,音频眼镜走量可能比摄像头产品多一个数量级 [107][110] - 眼镜市场将呈现高度差异化,不会出现手机行业的同质化竞争 [71][73] - 中国眼镜年替代量达2.8亿副,存在巨大存量市场机会 [106] 内容生态与开发者机遇 - 2024年是内容开发者最佳入局节点,影目拨5000万孵化AI+AR原生内容 [119][120] - 未来应用形态将转向分布式网络服务,而非具体APP [19] - 百度智能云将搜索/地图等服务打包为MCP协议开放能力 [127] - 服务变现路径更短,海外已出现高收入小型工具案例 [130]
同时监督和强化的单阶段大模型微调,告别“先背书再刷题”,推理泛化双提升|中科院&美团等
量子位· 2025-07-02 10:02
核心观点 - 提出单阶段监督-强化微调方法SRFT,通过基于熵的动态加权机制将监督微调(SFT)和强化学习(RL)结合,提升大语言模型(LLM)推理性能[1][3] - SRFT在5项数学推理任务中实现59.1%平均准确率,较zero-RL基线提升9.0%,在分布外任务上平均准确率达62.5%,提升10.9%[4][47] - 相比传统两阶段SFT→RL方法,SRFT训练效率提升2.28倍,实现更稳定的收敛和更优的泛化能力[21][48] 方法设计 - 采用熵感知自适应权重机制动态平衡SFT和RL的贡献:高熵时降低SFT权重防止专家数据过度干扰,高熵时增加RL正样本权重促进熵稳定[29][44] - 双重策略设计:SFT组件实现粗粒度行为策略逼近,异策略RL组件利用演示数据进行细粒度优化[23][24][26] - 统一损失函数集成四个组件:演示数据SFT损失、演示数据RL损失、自探索正样本目标、自探索负样本目标[39][41] 性能对比 - 在AIME24等5个数学基准上,SRFT以59.5%平均准确率超越SFT(54.3%)和最佳zero-RL方法(50.1%)[43] - 在ARC-C等3个非数学基准上,SRFT以62.5%平均分领先SFT→RL(54.6%)和LUFFY(57.8%)等组合方法[43][47] - 响应长度分析显示SRFT能生成更详细的推理过程,而纯RL倾向于简洁输出[48] 训练动态 - 可视化显示SFT使模型概率空间移动最远,RL需将其拉回最优区域,而SRFT路径更直接高效[15] - 熵变化曲线表明SRFT维持更稳定的熵水平,避免RL导致的过早收敛,保留探索能力[20][48] - 重要性采样和分布不匹配缓解策略确保演示数据与当前策略的协同优化[31][32] 技术突破 - 首次实现单阶段协同学习:同步利用专家演示数据和模型自探索试错数据,解决知识遗忘问题[3][23] - 理论揭示SFT通过全局调整token分布(50%以上token受影响)类似"大锤",RL仅针对性调整2%token类似"手术刀"[9][10] - 提出新型训练轨迹可视化方法,以teacher forcing距离量化模型在概率空间的移动[14]
清华计算机女神,冲刺IPO了
量子位· 2025-07-02 07:58
公司概况 - 镁佳科技由庄莉于2018年创办,专注于智能座舱集成式域控解决方案,目标香港联交所主板上市[2][3] - 公司核心业务为硬件+软件的智能座舱方案,涵盖智能座舱、ADAS泊车/驾驶、车辆网络、OTA升级及AI驱动功能(如DMS/OMS、ASR、LLM语义理解)[6][7] - 2024年中国乘用车集成式域控新增装机量达680万件,前五大供应商占49%市场份额,公司以9.3%市占率排名第二[8][9] 市场地位与客户 - 2024年公司解决方案搭载于63.4万辆新车,相当于每十辆智能座舱新车中有一辆使用其技术[9] - 客户集中度高:2022-2024年前五大客户收入占比分别为92.8%、91.2%、84.7%,最大客户收入占比从52.8%降至22.8%[12] - 累计获48个主机厂定点,合作品牌包括奇瑞、长安、东风、日产、福特等[12][13] 财务表现 - 营收从2022年3.878亿元暴增至2023年15.13亿元,2024年略降至14.197亿元(同比-6%)[20] - 毛利率显著提升:2022-2024年分别为19.0%、12.1%、21.8%,毛利达3.09亿元[24] - 研发投入持续增加:2022-2024年研发费用2.61亿/2.9亿/3.57亿,占营收比67.3%/19.2%/25.1%[26] - 亏损收窄:年度亏损从4.23亿元(2022)降至2.91亿元(2024),亏损率从109.1%改善至20.5%[27] 运营数据 - 主机厂客户数量从2022年7家增至2024年12家,累计交付量达634,337件(2024年)[30][32] - 2024年主动终止低价值客户合作,导致交付量同比下降0.6%,但筛选后客户贡献营收同比增长116.3%[33][34] 融资与股权 - 累计完成6轮融资共2.3亿美元,IPO前估值9.3亿美元(约66.6亿元人民币)[36] - 创始人庄莉持股44.85%,主要机构投资者包括南山资本(16.94%)、红点创投(9.43%)等[38] 创始人背景 - 庄莉为清华计算机系96级第一名毕业生,与丈夫周枫(网易有道CEO)均为UC伯克利博士[41][42] - 曾参与蔚来汽车智能座舱创业,其技术背景涵盖分布式系统、操作系统及AI领域[4][42]
Meta“1亿美元年薪”震荡硅谷!奥特曼回应:总有人唯利是图,而且都算不上TOP
量子位· 2025-07-02 07:58
雷刚 白交 发自 纽凹非寺 量子位 | 公众号 QbitAI 疯狂,太疯狂。 这两天,硅谷乃至全球AI领域的注意力都被Meta老板扎克伯克带走了,毕竟也不是谁都能boss直聘,一举挖走8名OpenAI核心员工。 更何况其中大部分,还是以聪明能干吃苦耐劳著称的华人研究员。 但是,最新爆料就说了:小扎挖人,不光只是靠梦想,还给出了最真诚的尊重——人均 1亿美元的年薪 ,以及优先且不限制的最先进算力资 源使用权。 1亿美元年薪,什么概念? NBA现役头号球星勒布朗詹姆斯,最新的年薪也才5000多万美元。 小扎给的实在太多了,确实也让OpenAI上下如临大敌。 在一波涨薪暗示和临时休假的安排之后,OpenAI CEO山姆-奥特曼的最新内部信也被进一步曝光。 奥特曼除了痛骂小扎,认为Meta的作派令人反感,而且还对被挖走的旧部阴阳怪气杀人诛心—— "Meta没有挖到顶尖人才,只能退而求其次","当然也总有人唯利是图……" 太狠了太狠了,别的不知道,但应该挖到肺管子了。 疯狂小扎,天价挖人 小扎的待遇究竟有多壕,为啥能闪电一样带走OpenAI核心员工? 《连线》杂志援引消息人士曝出了内幕,称扎克伯格在招募新成立的"超级智 ...
首届国产机器人足球赛,最忙的是担架
量子位· 2025-07-02 07:58
赛事概况 - 国内首个机器人自主足球赛"机超"在北京举行 四支高校战队参赛 全程无遥控器指挥 完全依赖AI策略完成动作[2][3][4] - 赛事使用加速进化T1机器人平台 清华火神队夺冠 队长称冠军体现技术积累与团队协作精神[7][9] - 机器人当前水平相当于5-6岁儿童 赛事表现仅1-2分 预计5年内可达10分水平[10] 技术参数 - 加速T1机器人高1.2米 重20kg 配备23个自由度 膝关节峰值扭矩130N·m 跌倒后可自主起身[69][70] - 搭载Nvidia AGX Orin芯片 提供200TOPS算力 支持二次开发 可承受15N·s冲击[72][73] - 采用深度相机视觉识别 需避免白色干扰 电池续航支持行走2小时或站立4小时[72][77] 比赛细节 - 采用3V3赛制 每队3名球员+1替补 上下半场各10分钟 规则允许非恶意冲撞[74][75] - 火神队首轮9:3胜光炽队 次轮山海队4:2胜Power队 决赛火神队5:3夺冠[16][28][40][68] - 比赛中频繁出现机器人摔倒 乌龙球等失误 反映运动控制和物体定位技术瓶颈[79] 行业展望 - 赛事目标2050年机器人球队夺得世界杯冠军 被视作硅基"国足"的换道超车机会[80][82] - 机器人通过深度强化学习具备环境感知和战术布置能力 但需提升运动控制精度[78][79] - 加速T1已与傅立叶 宇树共同成为RoboCup官方合作伙伴 显示行业技术整合趋势[73]
首届国产机器人足球赛,最忙的是担架
量子位· 2025-07-01 17:25
赛事概况 - 国内首个机器人足球赛"机超"在北京举行,四支高校战队参赛,全程由AI自主策略控制无人工干预[1][2][3][4] - 比赛采用3V3赛制,使用加速进化T1机器人平台,清华火神队夺冠[7][68] - 赛事目标为2050年实现机器人球队夺得世界杯冠军[80] 技术细节 - 加速T1机器人高1.2m/重20kg,配备23个自由度关节,膝关节峰值扭矩130N·m,跌倒可自主起身[69][70] - 搭载Nvidia AGX Orin芯片提供200 TOPS算力,支持双编码器姿态控制,单次续航行走2小时/站立4小时[72][70] - 采用深度相机视觉识别,要求避免白色干扰物,通过深度强化学习实现环境感知与路径规划[77][78] 比赛表现 - 当前机器人水平相当于5-6岁儿童,预计5年内可从1-2分提升至10分水平[10] - 火神队以9:3、5:3等比分连胜,展现摆速领先优势,但频繁出现摔倒、乌龙球等技术缺陷[22][28][61][79] - 赛事规则允许非恶意冲撞,每队3名场上球员+1替补,上下半场各10分钟[74][75] 行业意义 - 赛事验证双足动态平衡与多机协同决策能力,推动运动控制精度技术迭代[77][79] - 机器人足球被视为硅基技术"换道超车"的潜在路径,引发对国产机器人国际竞争力的讨论[81][82]
国产GPU历史性时刻!摩尔线程、沐曦同日获IPO受理
量子位· 2025-07-01 15:29
国产GPU行业动态 - 2025年上半年摩尔线程与沐曦股份科创板IPO申请同日获得受理 标志着国产GPU行业进入资本化新阶段 [1] - 两家公司分别由英伟达系(摩尔线程)和AMD系(沐曦)核心团队创立 平均拥有近20年GPU研发经验 [2][5][6] - 行业呈现"两条技术路线"特征:摩尔线程布局全功能GPU对标英伟达 沐曦聚焦数据中心GPGPU市场 [3][7][9] 摩尔线程技术布局 - 推出国内首个全功能GPU架构MUSA 单芯片同时支持AI计算/图形渲染/物理仿真 [10] - 产品矩阵覆盖消费级(MTT S80/S70)与数据中心(MTT S2000-S4000) 其中S4000芯片FP32算力达49 TFLOPS [13][15] - 夸娥智算中心解决方案支持万卡级集群部署 长江SoC芯片集成多元算力瞄准边缘计算市场 [14][15] 沐曦技术布局 - 采用完全自主IP设计 产品线分为曦云C系列(训练)、曦思N系列(推理)、曦彩G系列(图形渲染) [17][19][24] - 初期主打数据中心通用计算 曦云C500系列在2024年贡献97%营收 累计销量超25000颗 [17][38] - 自研MXMACA软件栈已支持PyTorch等主流框架 加速构建开发者生态 [37] 财务与增长表现 - 两家公司均符合科创板第五套上市标准 最近三年研发投入占比超280%(沐曦282% 摩尔626%) [25] - 沐曦2022-2024年营收复合增长率达4074% 摩尔线程同期增长208% [28][29][30] - 毛利率持续改善:摩尔线程从18%提升至37% 沐曦最高达63% 显示成本控制能力增强 [32] 行业竞争格局 - 国产GPU四小龙(摩尔/沐曦/壁仞/燧原)密集冲刺IPO 反映行业技术成熟度进入新阶段 [34][35] - 摩尔线程S80显卡以RTX 3060三分之一价格切入消费市场 逐步建立品牌认知 [36] - 当前主要差距在软件生态 CUDA移植工具(MUSA/MXMACA)成为破局关键 [37] 发展挑战 - 收入来源集中:沐曦单产品线占比超97% 摩尔线程前五大客户贡献80%营收 [38][39] - 芯片研发周期(2-3年)与AI迭代速度(3-6个月)存在错配风险 [39]
面部控制手机电脑、手语变语音…这些AI项目重新定义了“无障碍”
量子位· 2025-07-01 15:29
AI技术在公益领域的创新应用 - AI眼镜帮助听障人士实现双向交流 通过AR字幕手语眼镜将声音转文字并合成手语 同时将手语转声音 服务8万余人 完成数亿次AI服务 [1][11][13][15] - 面部控制技术赋能手部障碍人群 国内首个面控操作系统"面面俱控"通过面部动作模拟手机手势和PC操作 覆盖中国3000万手部障碍者 [4][6][7][8] 腾讯Light创造营项目成果 - 第五届创造营收到847个团队申报 19支入围终审 11个项目获资助 涵盖无障碍服务 非遗传承 儿童教育等领域 [17] - 青少年心理戏剧模拟平台利用大模型能力 针对19.3%的青少年精神疾病患病率 通过AI辅助戏剧干预探索现实困境 [20][21][23] - 景区无障碍评分小程序通过AI分析评论 解决障碍人群出行决策难题 非遗"锡绣"项目利用AI图像技术焕新传统纹样 [23] 腾讯公益生态建设 - Light创造营五年来吸引5526支队伍 超万名开发者 孵化上百个创新项目 如自闭症情绪识别系统降低60%干预成本 [29][30] - 腾讯云提供混元大模型等300多项AI能力 降低公益创新门槛 支持沙漠治理 海洋动物保育等项目落地 [32] - 腾讯基金会将持续资助AI公益创新 提供技术+场景+生态立体化培育 推动可持续解决方案 [28][33]