量子位
搜索文档
量子位编辑作者招聘
量子位· 2025-12-27 15:08
公司概况与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量200万以上[12] - 公司在第三方数据平台被认定为AI及前沿科技行业TOP1新媒体[12] 招聘岗位与方向 - 公司开放三大方向的岗位招聘:AI产业方向、AI财经商业方向、AI产品方向[2][6] - 岗位面向社招和校招,社招覆盖编辑、主笔、主编各个层级,校招面向应届毕业生并可实习转正[4][6] - 所有岗位工作地点均在北京中关村[2] 岗位职责详情 - AI产业方向职责:跟进AI基建层新进展,包括芯片、AI Infra、云计算领域动态及核心玩家[6];解读前沿论文、开源社区及技术大会报告[6];参与核心采访,对话产业专家并撰写落地案例[7] - AI财经商业方向职责:聚焦创投、AI创业公司、上市公司、商业模式及产业链资本动向[11];产出创投融资、财报解析、公司战略分析等稿件[11];访谈对话投资人、创业者及产业分析人士[11] - AI产品方向职责:关注AI在软件应用和硬件终端的落地[11];撰写AI应用产品深度评测,跟踪手机、PC、XR、车机等多终端新品发布[11];对话访谈AI应用创业者、产品专家及终端技术专家[11] 任职要求 - AI产业方向要求:对芯片、GPU、NPU、服务器、模型训练架构、云计算等有基本理解[11];熟悉AI行业供应链与生态[11];具备将复杂技术内容结构化表达的能力[11];有技术背景、理工或CS/EE方向优先[11] - AI财经商业方向要求:对数据敏感,对财报、股权结构、战略规划感兴趣[11];逻辑结构强,对商业叙事敏感[11];热爱对话采访,具备社交型人格[11] - AI产品方向要求:对智能硬件、AI终端趋势敏锐,是重度AI产品体验人士[11];熟悉各大终端厂商业态及体验方法论[11];具备强逻辑、体验表达和结构化能力[11] 员工福利与发展机会 - 员工可第一时间接触AI领域最新技术和产品,构建完整的AI认知体系[6] - 员工可将各种AI新工具应用于工作,提升效率和创造力[6] - 员工可通过撰写独家原创内容建立个人知名度,成为AI领域意见领袖[6] - 员工可与AI领域大咖零距离接触,参与重要科技活动,拓展行业人脉[6] - 应届新人可获得主编级编辑提供的一对一指导[6] - 公司提供扁平、简单、开放、多劳多得能者上位的团队氛围[6] - 公司提供行业TOP薪资待遇,以及五险一金、餐补、项目绩效、商务绩效、加班补助等福利[6]
鸿蒙押注新未来:用AI重写数字世界交互逻辑
量子位· 2025-12-27 15:08
行业趋势与跃迁 - 2025年是终端AI全面爆发的元年,产业正经历从功能机到智能机之后的又一次根本性重塑[1] - 行业跃迁的核心是从以APP为中心的被动服务模式,向以AI智能体为中心的主动服务模式跨越[1] - 行业面临如何重构人与设备连接的关键考题,主要分为在既有APP生态上做加法的“改良派”和深入操作系统底层彻底改写交互逻辑的“重构派”[2][3] 终端智能化分级标准 - 华为与清华大学人工智能产业院联合提出终端智能化L1~L5分级标准[5] - L1功能级和L2任务级仍停留在人为主、AI为辅的初级阶段[10] - L3协作级是真正的分水岭,意味着AI开始具备自主拆解目标与闭环执行的能力[7][10] - 行业未来将向L4指导级与L5智慧级持续进阶[10] 当前行业路径依赖与局限 - 大模型厂商主导“悬浮式智能”:受限于B to C产品逻辑和移动操作系统沙盒机制,将云端算力封装为独立对话应用,切断了与设备底层及其他应用的连接[9] - 互联网流量巨头主导“割据式智能”:未能走出C to B的流量圈地舒适区,将AI能力封装在自家“围墙花园”内部,导致数据无法流动,意图无法跨应用传递[11][12] - 传统终端厂商主导“拼盘式智能”:受限于硬件思维逻辑,以“打补丁”方式在原生应用中零散塞入AI功能点,功能间无法串联成完整服务链条[14][15] - 上述三种路径本质都是在旧有操作系统架构上进行“外挂式”修补,被困在L1/L2级辅助工具范畴,无法实现真正的代际跨越[15][16] - 行业真正缺失的是能够穿透应用壁垒、深度统筹意图与服务的系统级中枢,这是通往L3级“跨应用协同”的必经关隘[17][18] 华为鸿蒙的破局战略 - 华为作为“重构派”代表,战略锚定底层,将AI能力下沉并转化为操作系统的原生基因[4] - 鸿蒙选择进行彻底的“系统级重构”,从底层打破应用与系统的坚硬边界[21][22] - 重构的基石是底层的鸿蒙智能体框架,它构建了独特的意图框架与用户数据图谱,是系统级AI的关键基础设施[23][25] - 基于此统一逻辑底座,鸿蒙确立了“C/B双端共振”的战略路径,支撑整个生态的智能化运转[26] C端用户体验重构 - 在用户可感知的C端层面,底层重构用对话取代了繁琐的操作[27] - A2A协议打通了应用之间的隔阂,系统能主动识别用户意图并自动调动相关服务[28] - 交互逻辑从“人找APP”的被动搜索,转变为“服务找人”的主动响应[29] - 以深圳航空“深航飞飞”智能体为例,用户只需一句话,小艺便能通过A2A协议调度智能体,静默完成从查票、订票到值机选座的全流程闭环[29] B端开发者赋能 - 鸿蒙为开发者提供小艺智能体开放平台,应用开发者可直接调用系统级控件,快速让应用获得意图理解能力[31] - 平台配备覆盖从开发、多端调试到部署上架的端到端工具链,支持手机、平板、车机、PC、手表等设备[31] - 开发者一次开发,即可将智能体无缝分发至鸿蒙全场景生态[31] - 智能体通过统一上架小艺智能体广场进行分发,用户可通过系统级入口、小艺超级智能体等途径在全场景终端获得一致服务体验[31][32] 新流量分发与商业生态 - 基于意图的全新分发机制,让流量分配不再单纯依赖应用图标点击,而是取决于系统对用户需求的实时判断,动摇了传统移动互联网固化的流量版图[33][34] - 鸿蒙将传统的应用分发转变为服务分发,小艺智能体广场成为一个基于用户实时需求的流量中枢[37] - 流量分配权从竞价排名回归服务相关性,缩短了服务转化链路,为专注于垂类服务的中小开发者提供了被看见的机会[37] - 目前搭载HarmonyOS 5/6的终端设备已突破3200万台,且仍在高速增长,构成了新流量的坚实基座[38][40] - 从手机到车机,从PC到穿戴设备,共同编织了一张捕捉用户意图的大网,服务可在用户全天候场景中自然流转与触达[40][41] - 随着L3级智能体验落地、全场景设备规模爆发以及“意图-服务”商业闭环跑通,鸿蒙AI生态已进入实质性红利释放期[41] - 对于开发者而言,加入鸿蒙AI生态是在抢占下一代服务分发入口的最佳窗口期[42]
大模型第一股热闹正酣,“局外人”阶跃星辰发了一个小更新
量子位· 2025-12-27 15:08
文章核心观点 - 在年底国产大模型公司密集发布新模型和推进IPO的背景下,阶跃星辰一度显得相对安静,但近期通过开源其最新的图像生成模型NextStep-1.1,重新展示了技术进展 [1][2][3] - 大模型行业的竞争格局正在发生变化,技术竞争焦点转向编程、智能体和多模态,开源成为主要策略,同时资本层面进入新阶段,领先公司寻求IPO以获得更大发展杠杆 [43][44][45] - 坚持自研通用大模型的创业公司已从“六小龙”缩减至智谱、MiniMax、Kimi和阶跃星辰四家,它们将直接与巨头竞争,未来的核心挑战在于持续的自研能力、充足的资金以及可行的商业模式 [46][47][48][50] 阶跃星辰的最新动态与NextStep-1.1模型 - 阶跃星辰近期开源了其最新的图像生成模型NextStep-1.1,旨在解决前代模型NextStep-1中存在的可视化失败问题 [3][6] - NextStep-1.1通过扩展训练和基于流的强化学习后训练范式,显著提升了图像质量,并大幅减少了视觉伪影 [7][23] - 该版本解决了自回归流匹配模型在强化学习过程中固有的数值不稳定性问题,从而提升了技术稳定性 [24][37] - NextStep-1.1已率先在GitHub和Hugging Face平台开源,但其技术报告尚未发布 [25] - 阶跃星辰近期并非“静悄悄”,自11月底以来,公司还密集开源了面向安卓端本地部署的GELab-Zero、在数学方面超越GPT-5的8B推理模型PaCoRe,并推出了深化智能终端布局的Step-GUI系列产品 [38][39][40] 大模型行业竞争格局 - 近期,多家国产大模型公司动作频频:Kimi通过K2推理模型重获关注并接入微软Azure和亚马逊Bedrock;智谱和MiniMax在发布新模型GLM-4.7和MiniMax M2.1的同时,已相继通过聆讯,冲刺IPO [2][41][42] - 行业竞争焦点已集中在编程、智能体和多模态技术领域,开源生态成为各公司的主要竞争策略 [44] - 资本层面进入新阶段,智谱和MiniMax的IPO进程意味着在第一轮“百模大战”后,胜出者开始寻求更大的资本杠杆以进行下一轮竞速 [45] - 坚持预训练、自研通用大模型路线的创业公司已从“六小龙”缩减至四家:智谱、MiniMax、Kimi和阶跃星辰 [46][47] - 这些剩余的创业公司将与科技巨头直接竞争,未来面临的核心问题是:是否依然有能力自研基础大模型、是否粮草充足、以及是否可以构建可持续的商业模式 [48][50] NextStep-1系列模型技术解析 - NextStep-1系列模型采用自回归流匹配架构,旨在取代传统的“自回归+重型扩散模型”混合架构,通过逐图像块自回归生成,仅依赖一个轻量级流匹配头,从而避免了对计算密集型扩散模型的依赖 [28] - NextStep-1是一个拥有140亿参数的自回归模型,其核心架构包括Transformer骨干网络、标准语言建模头、轻量级流匹配头以及一个图像分词器 [29] - 在训练阶段,流匹配头基于隐藏状态预测从噪声到目标图像块的连续流;在推理阶段,模型通过迭代引导噪声逐步生成完整图像 [32][33] - 该模型在文生图任务中展示了接近传统扩散模型的生成质量,并在图像编辑方面表现优异 [34] - 然而,NextStep-1在高维连续潜在空间运行时存在数值不稳定性,可能导致输出图像出现块状或网格状伪影,而NextStep-1.1正是针对此问题进行了优化 [35][37]
别再吹AI搞科研了!新评测泼冷水:顶尖模型离「合格科学家」还差得远
量子位· 2025-12-27 15:08
文章核心观点 - 上海人工智能实验室提出了衡量AI“科学通用能力”的新框架与基准SGI-Bench,其核心观点是当前最先进的大语言模型在科学研究的全流程任务中表现仍显著不足,距离成为“强科学家”尚有巨大差距 [1][3][9] SGI能力框架与评测基准 - 提出了“科学通用能力”的四阶段循环模型,将科学探究拆解为审思、构思、行动、感知四个维度,并将其综合定义为SGI [1][3] - 发布了覆盖全流程的SGI-Bench基准,该基准采用“科学家对齐”的任务构造方法,由多学科专家提供原始语料,并由超过100位研究生/博士生结合真实科研流程构建题目 [5] - 基准样本经过三重清洗和难度筛选,最终得到1000多个覆盖化学、生命、物理、数学等10大学科的评测样本 [6] 核心评测结果与发现 - 在审思/深度研究维度,模型在单个步骤的准确率可达50%–65%,但由于长链条步骤中的错误累积,最终结论的严格匹配准确率仅10%–20% [9][13] - 在构思/创意生成维度,模型生成想法的新颖性尚可,但可行性普遍偏低,例如GPT-5的新颖性得分为76.08,而可行性得分仅为18.87 [19][26] - 在行动/实验执行的干实验部分,模型生成的代码可运行率(平滑执行率)多在90%以上,但科学正确性不足,最佳模型Gemini-3-Pro的代码严格通过率(通过全部5个单测)仅36.64% [24][30][31] - 在行动/实验执行的湿实验部分,模型在规划实验流程时表现不佳,最佳模型的序列相似度约35.5,参数准确率最高约40.6 [32][35] - 在感知/结果解读维度,最佳闭源模型的答案准确率约41.9,推理有效性最高约71.3,比较型推理是其中最薄弱的环节 [37][43] 模型表现对比 - 闭源模型整体表现优于开源模型,其中Gemini-3-Pro以SGI-Score 33.83/100取得当前最佳成绩 [3] - 工具增强的多智能体方案在逐步准确率上略优于纯模型,但优势并不显著 [16] - 在代码生成任务上,闭源模型略优于开源模型,但优势有限且分布重叠,表明“科学代码合成”是各架构的共同短板 [30] 智能评测工具 - 团队开发了名为SGIEvalAgent的智能体评测框架,允许用户通过自然语言描述评测意图,系统可自动解析意图、选择题目、定制指标、执行评测并生成带有证据链的评测报告 [44][46][47][48] 未来发展方向 - 研究为AI自主科研指明了多个改进方向,包括通过细粒度视觉定位提升多模态比较推理精度、强化证据聚合与数值鲁棒性以提升深度研究准确性、引入规划感知提升创意可行性、在代码生成训练中聚焦数值分析先验与算法稳定性,以及结合状态模拟解决湿实验协议中的时序逻辑问题 [51][52]
别再吹AI搞科研了!新评测泼冷水:顶尖模型离「合格科学家」还差得远
量子位· 2025-12-27 12:59
文章核心观点 - 上海人工智能实验室提出了评估AI“科学通用能力”的新框架SGI-Bench,其核心观点是当前最先进的大模型在科学研究的全流程中表现仍显著不足,距离成为“强科学家”尚有巨大差距[1][3][9] SGI-Bench评测框架 - 团队定义了科学通用能力的四个循环阶段:审思/深度研究、构思/创意生成、行动/实验执行、感知/结果解读,并将四维能力的综合定义为SGI[3] - 评测基准SGI-Bench采用“科学家对齐”的任务构造方法,由多学科专家提供原始语料,超过100位研究生/博士生结合真实科研流程构建题目,最终得到覆盖10大学科的1000多个评测样本[5][6] 核心评测结果与洞见 审思/深度研究 - 模型在科学深度研究任务中的步骤准确率可达50%–65%,但由于长链条步骤中的错误累积,最终答案的严格匹配率仅10%–20%[13] - “数据/性质”类题目最难,需要跨文献精确检索与数值聚合;“微/宏实验”类相对较好但整体准确率仍低于30%[18] - 工具增强的多智能体在逐步准确率上略优,但与纯模型差距并不显著[16] 构思/创意生成 - 模型在创意生成任务中表现出“概念丰富≠可执行方案”的特点,以GPT-5为例,其新颖性得分为76.08,但可行性得分仅为18.87[26] - 开源模型的可行性得分上限约20分,多数模型在14–20分之间,常见缺陷包括缺少数据获取计划、流程接口不闭合、步骤顺序模糊等[26] 行动/实验执行 干实验 - 在科学代码合成任务中,最佳模型Gemini-3-Pro的严格通过率仅36.64%,宽松通过率41.98%,表明模型常能写对部分代码,但难以实现严格正确[30] - 代码的平滑执行率多在90%以上,但“能跑”与“算对”之间存在系统性鸿沟,数值计算与仿真类任务最弱[31] 湿实验 - 在湿实验流程规划任务中,模型生成的原子动作序列与标准答案的相似度整体偏低,最佳闭源模型约35.5;参数准确率最高约40.6[35] - 高发错误包括插入多余步骤、遗漏关键步骤、打乱有效步骤顺序,反映了模型在时间协调、分支规划与样本管理方面的薄弱[35] 感知/结果解读 - 在多模态实验推理任务中,最佳闭源模型的答案准确率约41.9,推理有效性最高约71.3[43] - 多数模型的推理有效性高于答案准确率,表明难以实现推理链条的完全正确;比较型推理任务最弱[43] 智能评测工具SGIEvalAgent - 团队设计了面向“可定制评测与报告生成”的智能体SGIEvalAgent,用户可用自然语言描述评测意图,系统将自动解析意图、选择题目、定制指标、执行推理与打分,并输出带有可追溯证据链的评测报告[44][46][48] 未来发展方向 - 根据SGI-Bench的结果,为AI自主科研指明了多个改进方向,包括:通过细粒度视觉定位提升多模态比较推理精度;强化证据聚合与数值鲁棒性以提升深度研究准确性;引入规划感知与结构化监督以保障创意可行性;在代码生成训练中聚焦数值分析先验与算法稳定性;结合状态模拟解决湿实验的时序逻辑与复杂分支问题[51][52]
AI创业版黄仁勋:37岁华人0融资5年干到240亿,谷歌OpenAI都是客户
量子位· 2025-12-27 12:59
公司概况与创始人背景 - 公司Surge AI是一家数据标注公司,由37岁的美裔华人Edwin Chen于2020年创立[4][8] - 创始人Edwin Chen毕业于麻省理工学院,主修数学、计算机科学和语言学,曾在Twitter、Google和Facebook担任机器学习工程师或数据科学家[5][39] - 创始人精通多门语言,包括法语、西班牙语和普通话,其跨学科背景(语言与数学)深刻影响了公司的人才理念[19][35][37] - 公司创立时未接受任何风险投资,创始人押上了自己打工十年的全部积蓄[9] - 截至2024年,公司估值达到240亿美元,创始人凭借180亿美元身价成为福布斯400榜单中最年轻且最富有的新晋富豪之一[2][4] 创业理念与战略选择 - 创始人创业的核心理念是解决高质量人工标注数据的稀缺性问题,认为没有足够的高质量数据就无法实现AGI(通用人工智能)[6] - 公司拒绝所有风险投资,旨在完全掌握战略制定话语权,避免公司发展偏离创始人的最初设想[11][25] - 公司对资本市场保持独立姿态,明确表示对收购和上市不感兴趣[24] - 近期公司态度出现微妙变化,据悉正在洽谈一笔约10亿美元的融资,若完成估值有望升至300亿美元[32] 商业模式与市场定位 - 公司定位为高端数据标注服务提供商,其收费标准通常比市场溢价50%,极端情况下可比竞争对手高出10倍[23] - 公司早期客户包括Airbnb、Twitch、Twitter等互联网巨头,并与谷歌签署了年价值超过1亿美元的合作协议[23] - 2024年,公司营收正式超过竞争对手Scale AI,达到12亿美元[23] - 公司面临激烈的市场竞争,部分重要客户(如OpenAI)已转向其竞争对手,也有客户(如Cohere)将数据标注工作转移至内部[31] 核心技术路线与差异化竞争力 - 公司摒弃传统低附加值的数据标注模式,其核心任务是编码“人类的丰富性”,即让高学历人才将专业知识转化为AI可理解的代码[14] - 公司大幅抬高数据标注员的准入门槛,要求员工具备高等教育背景,甚至聘请博士与高校教授[15] - 公司雇佣了来自全球50多个国家的一百多万名自由职业者,负责提出难题、评估模型回答并编写标准答案[17] - 公司设计了一套与YouTube推荐机制相似的内部匹配系统,根据标注员的历史表现数据,动态分配最合适的项目[16] - 公司的差异化竞争力在于其“人才基因”,积极招募拥有“科技和人文十字路口”背景的员工,约20%的员工拥有音乐等非传统行业背景,以帮助AI捕捉复杂微妙的文化与社会语境[19][21][22] 行业挑战与风险 - 数据标注行业被认为几乎没有什么护城河,客户可以随时切换供应商或选择自研[31] - 行业面临一个根本性长期风险:如果AI继续进步,最终可能不再需要人工标注数据[31] - 竞争对手正获得大量资金涌入,并通过“价格战”争夺市场份额[28]
清华百川楼挂牌启用后,就地圆桌开聊AI医疗
量子位· 2025-12-27 12:59
文章核心观点 - AI医疗是通向通用人工智能(AGI)的终极复杂场景之一,其发展愿景超越工具属性,指向系统级、可长期陪伴与决策的智能体 [7][14][25] - 发展AI医疗需平衡技术创新与医疗现实,关键在于构建能体现临床思维、提升疗效并被医患接受的产品,而非仅追求技术指标 [32][33][34][40] - 进入AI医疗领域需保持清醒的合作策略,避免被传统医疗需求带偏技术方向,并鼓励跨界学习与宏大志向 [63][55][60] AI医疗的愿景与价值 - **医学是AGI的试金石**:医学拥有11个一级学科,其高度复杂、非线性的特性使其成为AGI最广阔也最困难的应用场景 [13][14] - **构建医学信息基础设施**:核心是打造能整合论文、病历、指南、影像等多模态信息的医学大模型,成为医疗核心信息基础设施 [16][17] - **推动医学科学化**:AI的价值在于推动医学向更可验证、可推理的“科学”方向演进,而不仅是替代医生 [28][29] - **重塑医患关系**:未来患者将被大模型“武装”,对医生提出更高要求,倒逼医疗服务模式进化 [21][22] - **超越工具属性**:目标应是打造系统级、可持续陪伴、决策与优化的智能体,这本身已接近AGI,是“操作系统”级别而非单一应用 [24][25][26] AI医疗的评估与实践挑战 - **评估标准转向临床价值**:在应用阶段,Benchmark重要性下降,核心评估三件事:AI是否体现临床思维、医生是否愿意接受、最终是否提升疗效 [32][33][34] - **技术难点在于深度耦合**:医疗对准确性、可解释性要求极高,需将图像分割、识别、结构理解与生成模型深度耦合,形成统一体系 [42][43][44] - **数据异构性带来挑战**:医学数据包含极专业的文本、物理尺度跨度大的图像及大量结构化数据,妥善处理这些问题将对通用大模型产生反向升级 [45][46] - **最大挑战非技术层面**:主要难点在于严谨的医疗监管体系限制了创新速度,以及如何在保持医生权威和信任的前提下让AI参与决策 [49][50][51][52] 企业策略与市场切入点 - **定位陪伴式AI智能体**:技术核心是打造具备长期记忆、动态规划和任务调度能力的陪伴式AI,而非一次性问答工具 [37][38] - **市场策略平衡专业与实用**:与顶尖医院合作获取专业背书,但产品成功的关键在于患者是否愿意用、医生是否能因此减负 [39][40] - **形象比喻阐明价值**:公司策略被形容为“给患者造矛,给医生造盾”,旨在同时赋能患者和医生 [41] - **警惕合作陷阱**:与医生合作必要,但需避免被其需求定义技术方向,防止项目因追求短期利益(如发论文、融资背书)而偏离正确产品道路 [63][64][66][67][69] 对从业者与年轻人的建议 - **寻找跨界创新点**:真正的创新常源于无路之处,需广泛接受其他领域知识,借鉴概念、模型和方法进行迁移 [55][56][57] - **树立宏大志向**:人工智能是百年一遇的时代机遇,优秀人才应立志成为“帅才、将才”,而非满足于顺势而下的工程师角色 [59][60][61] - **保持清醒的合作观**:进入AI医疗领域需对“合作”保持清醒,寻找有变革性想法的医生伙伴,避免被大多数医生的浅层需求牵引 [63][69][71] - **以兴趣为持久动力**:医学与AI领域都非常艰苦,仅追逐风口难以持久,找到真正的兴趣点至关重要 [54]
一只大头机器狗供不应求,打响了消费级具身智能第一枪
量子位· 2025-12-26 20:28
文章核心观点 - 消费级具身智能赛道在2025年末出现现象级产品,Vbot维他动力推出的“大头BoBo”超能机器狗凭借领先的产品定义、技术集成和精准的市场定位,创造了行业销售纪录,被视为“消费具身智能第一品牌” [1][9][24][57][75][79] 产品市场表现与行业地位 - 产品售价9988元,在52分钟内预订出1000台,创造了消费级机器人(包括四足及人形)的销售速度纪录 [7][8][20] - 该销售数据在尚处“萌芽”期的消费级四足机器狗市场中具有历史意义,此前行业最佳纪录为某品牌一年内在全球售出约2万台 [20][21][23] - 产品登上科技热搜榜,热度达67844,引发从普通用户到AI科技圈(如余凯、余轶南)的广泛关注和购买 [3][4][12][14][16][19] - 公司被评价为开创了“家庭机器人”新品类,是消费级具身智能赛道的领跑者 [56][57][75] 产品核心优势与特点 - **价格与配置**:定价9988元(创始权益价),但配置达到旗舰级别,包括128TOPS算力(消费级量产机器人最高)、近600Wh电池(较行业上限提升37.5%)、约5小时续航、双目深度视觉+16线激光雷达感知、极限12kg负重 [23][35][37] - **技术体系**:集成了多模态大模型、AI Agent、具身智能硬件,核心是行业首个全场景空间基座模型及视觉—语言—行动(V-L-A)模型驱动的Agent架构,能理解并执行复杂自然语言指令(如“去把家里的宝宝叫醒”) [34][38][41] - **产品定义与设计**:精准定位于家庭场景,特别是“中产带娃哄娃”的刚需,选择四足机器狗形态以兼顾安全性、亲和力和移动能力 [45][46][56] - 设计遵循迪士尼动画12法则,借鉴“大白”和“瓦力”风格,强调情绪价值和温暖友善的交互体验,拉近与家庭用户的心理距离 [51][52][53][54] - 与市面上多数由工业级产品“简配”而来的机器狗不同,该产品是原生家庭机器人思路,实现了“无遥控、真智能”的体验 [25][56][74] 公司发展模式与行业影响 - 公司成立于去年圣诞节,仅用一年时间推出首款产品并获得超预期市场反馈 [57] - 其模式融合了硬件制造与AI算法能力,通过终端销售建立数据闭环,驱动算法进化,有望形成通向AGI的具身智能“数据飞轮” [73][74] - 公司展现了强大的产品市场契合度(PMF),即“把合适的技术在合适的时间用在合适的场景”,并计划于明年3月开始大批量交付 [61][76][78] - 该产品的成功被类比为IBM 1980年推出第一台个人计算机5150,标志着前沿技术从工业场景向个人消费品的转化,可能开启一个普通用户愿意接受和付费的消费级具身智能时代 [62][63][64][65]
清华唐杰:领域大模型,伪命题
量子位· 2025-12-26 16:52
文章核心观点 - 文章系统阐述了人工智能大模型发展的八个关键方向与趋势 核心观点认为 通过持续扩大数据、参数和计算来扩展基座模型仍是最高效的路径 而模型能力的真正提升和价值的实现 依赖于对齐、推理增强、Agent化、记忆、在线学习等关键技术的发展 最终目标是让AI替代人类工作、创造增量价值 而非仅仅创造新的应用 [4][5][6][10][17][32] 关于基座模型扩展 - 预训练使大模型掌握了世界常识并具备简单推理能力 [4] - 获取更多数据、使用更大参数和更饱和的计算 仍然是扩展基座模型最高效的办法 [5] - 基座模型继续扩展规模仍然高效 [6] 关于激活对齐与增强推理能力 - 真实使用体验的进一步提升 绕不过对长尾能力的对齐和推理能力的增强 [6] - 激活对齐和增强推理能力 尤其是激活更全面的长尾能力 是保证模型效果的另一关键 [7] - 通用基准测试的出现评测了模型通用效果 但也可能导致模型过拟合 [7] - 真实场景下的关键是如何让模型更快、更好地对齐长尾场景 增强实际体验 [8] - 训练中期和后期的技术使得更多场景的快速对齐和强推理能力成为可能 [9] 关于智能体 - 智能体是模型能力扩展的里程碑 体现了AI模型进入人类真实世界的关键 [10] - 没有智能体能力 大模型将停留在理论学习阶段 无法转化为生产力 [11] - 原先智能体通过模型应用实现 现在模型已可直接将智能体数据集成到训练过程 增强了通用性 [11] - 不同智能体环境的泛化和迁移是难题 最简单的办法是增加不同环境的数据并进行针对性的强化学习 [11] - 智能体代表模型开始进入环境、开始形成生产力 [6] 关于模型记忆 - 实现模型记忆是模型应用到真实环境必须具备的能力 [12] - 大模型实现类似人类短期、中期、长期和历史记忆的不同阶段是关键 [13] - 上下文、检索增强生成和模型参数可能分别对应人类的不同记忆阶段 [13] - 一种方法是压缩记忆并存储在上下文中 如果大模型支持足够长的上下文 则有可能实现短中长期记忆 [13] - 如何迭代模型知识、更改模型参数仍是个难题 [14] 关于在线学习与自我评估 - 有了记忆机制 在线学习成为重点 目前大模型定时重新训练的方式存在浪费和丢失交互数据的问题 [14][20] - 实现在线学习是关键 自我评估是在线学习的关键点 模型需要知道对错才能自我改进 [14] - 构建模型的自我评价机制是个难题 [15] - 这可能成为下一个扩展范式 [15] - 模型的自学习自迭代将是下一阶段的必然能力 [20] 关于模型研发与应用结合 - 大模型发展越来越端到端 需将模型研发与模型应用结合 [16] - AI模型应用的第一性原理不应该是创造新的应用 其本质是通用人工智能替代人类工作 [17] - 研发替代不同工种的AI是应用的关键 [17] - 聊天部分替代了搜索 并融合了情感交互 [18] - 明年将是AI替代不同工种的爆发年 [19] - 大模型应用需要帮助人、创造新的价值 [34] - 如果AI软件没人用、不能产生价值 则没有生命力 [35] 关于多模态与具身智能 - 多模态是未来且有前景 但当下多模态不大能帮助提升通用人工智能的智能上界 [21][22] - 最有效的方式可能是文本、多模态、多模态生成分开发展 适度探索三者结合需要勇气和雄厚资本 [23] - 具身智能的痛点在于太难通用 少样本激活通用具身能力基本不可能 [23] - 解决方案是采集或合成数据 但这都不容易且昂贵 [23] - 一旦数据规模上去 通用能力出来自然会形成门槛 [24] - 机器人本身的不稳定和故障频繁也限制了具身智能的发展 [25] - 预计2026年这些领域将取得长足进步 [26] 关于领域大模型与大模型应用 - 领域大模型是个伪命题 通用人工智能实现后不应有领域特定的通用人工智能 [27][28] - 但在通用人工智能实现前 领域模型会长时间存在 [28] - 领域模型的存在本质上是应用企业希望构建领域知识的护城河 不希望AI入侵 希望把AI驯化为工具 [29] - AI的本质是海啸 将卷走一切 一定有一些领域公司会走出护城河 卷进通用人工智能的世界 [30] - 领域的数据、流程、智能体数据会慢慢进入主模型 [31] - AI的应用有两种路径:一种是将原有需要人参与的软件AI化 另一种是创造能替代人类某个工种的全新AI软件 [33]
训练时间爆砍80%!港大快手联合打造了一个AI炼金师:专挑“有营养”数据,20%数据达成50%效果
量子位· 2025-12-26 16:52
文章核心观点 - 研究提出了一种名为“炼金师”(Alchemist)的AI数据筛选系统,其核心观点是:在AI模型训练中,数据质量比数量更重要,通过智能筛选高质量数据可以显著提升模型性能、加速训练并降低成本 [2][8][27] 一、数据就像食材,质量决定成品 - 当前AI图像生成模型(如Stable Diffusion, FLUX)依赖从网络爬取的数百万张图片,但这些数据质量参差不齐,包含模糊、重复或广告背景图,影响了模型效果 [2] - “炼金师”系统能从海量图片数据中精准挑选出最有价值的一半,其作用类似于一位挑剔的大厨筛选优质食材 [2] 二、让AI学会“自我评判” - 传统数据筛选方法(如只看图片清晰度、文字匹配度或美学评分)存在局限,它们无法判断哪些数据真正有助于AI学习 [5][7] - “炼金师”系统训练了一个专门的评分员模型,能像艺术老师一样判断每张图片对学习过程的价值 [8] - 其评判标准是:能让AI模型学到新知识并快速改进的数据为好数据;让模型学习后进步甚微的数据为无用数据 [9] 三、最简单的不一定最好 - 研究发现一个违反直觉的现象:看起来最“简单”的图片(如纯白背景产品图)对模型学习的价值有限 [10] - 内容丰富、稍有挑战性的图片才是真正的“营养品” [10] - 科学验证显示,评分最高(0-20%)的图片训练损失很低、梯度变化小,学不到新东西;评分中等(30-80%)的图片训练损失适中、梯度活跃,处于积极学习状态;评分最低(80-100%)的图片训练损失很高、梯度几乎不下降,过于混乱困难 [10] 四、技术亮点:偏移高斯采样策略 - 传统Top-K方法简单选择评分最高的数据,但这些数据往往过于简单,缺乏营养 [14][16] - “炼金师”采用偏移高斯采样策略:避开评分过高的“简单”数据,重点选择中等偏上评分的“有营养”数据,并保留少量简单和困难样本以维持数据多样性 [14][16] - 系统还设计了“多粒度感知”机制,在个体层面评估单张图片质量,在群体层面考虑整批数据的搭配 [14] 五、实验结果:数据说话 - 在LAION-30M数据集上,使用“炼金师”筛选的50%数据(15M张)训练模型,性能超越使用100%全量数据(30M张)训练的模型:FID从17.48降至16.20(越低越好),CLIP Score从0.2336微降至0.2325(越高越好)[15] - 关键效率提升:用50%精选数据超越100%全量数据;用20%精选数据达到50%随机数据的效果;训练速度提升5倍 [6][17] - 跨模型通用性:该方法在不同规模(如0.3B参数筛选数据提升0.9B参数模型性能)、不同架构(STAR系列、FLUX系列)的模型上都有效,且评分成本可忽略不计 [16][29][31] - 跨数据集适应性:在HPDv3-2M(真实+合成混合)和Flux-reason-6M(纯合成推理)数据集上,使用“炼金师”筛选20%和50%数据,其FID指标均优于随机选择同比例数据 [18][19] 六、可视化分析:眼见为实 - 数据分布特征:“炼金师”重点选择的是评分在30-80%区间、内容丰富、主题明确、动作清晰的图片;避开0-20%高分区(简单但营养不足,如白色背景产品图)和80-100%低分区(过于混乱,如噪声图片)的图片 [21][22] - 训练动态对比:与随机选择数据相比,“炼金师”选择的数据训练过程更稳定,表现为性能持续提升、收敛速度更快、训练波动更少 [21] 七、技术深度:元梯度优化框架 - “炼金师”核心是一个双层优化框架:外层优化学习如何评分,目标是找到最优评分策略,评判标准是验证集性能;内层优化用加权数据训练代理模型,权重由评分器决定 [24] - 元梯度更新机制:系统通过观察代理模型在验证集上的表现差异来更新评分。如果一个样本能提升验证性能,则提高其评分;如果仅降低训练损失而不提升验证性能,则降低其评分 [24][25] 八、Q&A环节 - **Q1:炼金师如何判断图片价值?** A:通过观察AI模型在学习过程中的“反应”,监控训练损失变化、追踪梯度动态、对比验证集性能提升来判断 [26][30] - **Q2:为何用一半数据训练比用全部数据好?** A:因为并非所有数据都有价值。冗余数据(如重复简单样本、噪声图片)消耗资源但不提升性能;有营养的数据(内容丰富的中等难度样本)能促进真实学习并避免过拟合 [27][30] - **Q3:该方法能否用于其他AI模型?** A:可以。该方法具有良好的通用性和跨模型适用性,已验证适用于不同数据类型(网络爬取、高质量合成、人类偏好标注)、不同模型架构和不同模型规模 [28][29][31]