量子位
搜索文档
抛弃向量推荐!蚂蚁用8B小模型构建「用户“话”像」,实现跨任务跨模型通用并拿下SOTA
量子位· 2026-01-31 17:30
文章核心观点 - 在大模型时代,构建爆款应用的关键在于实现精准的个性化,而当前依赖向量或参数的“黑盒”范式存在不可解释和无法迁移的根本痛点 [1][6][7] - 蚂蚁与东北大学研究团队提出的 **AlignXplore+** 框架,通过“文本化用户建模”的新范式,实现了从“黑盒”到“白盒”的转变,使复杂用户偏好可被人和机器同时理解,并具备出色的扩展性与迁移性 [1][8][9] - **AlignXplore+** 在用户理解准确性、跨任务/跨模型迁移能力以及对真实世界不完美数据的鲁棒性上全面超越现有基线方法,仅用8B参数即在九大基准测试的平均分数上取得SOTA成绩 [19][20][24] 个性化技术范式转变 - 传统方法依赖ID Embedding或特定参数(如LoRA)表示用户偏好,本质是不透明、不可解释的“黑盒”,且与特定模型架构深度绑定,导致用户画像无法在不同模型和任务间迁移 [1][6][7] - 新范式主张摒弃隐空间向量,直接用自然语言归纳和推理解析用户偏好,使偏好总结成为“通用接口”,实现从“封闭的孤岛”到“通用接口”的范式转移 [5][8][9] - 基于文本的偏好归纳人眼可读、用户可控,并完全解耦了偏好推理与下游的模型和任务,使得任何大模型(如GPT、Llama、Qwen)都能无缝“读懂”并复用同一用户画像 [8][9][11] AlignXplore+ 的核心特性 - **全域通用**:能够处理真实世界中异构的数据源(如社交发帖、电商点击、新闻浏览),从碎片化数字足迹中提炼高价值偏好摘要,拼凑完整的用户全貌,打破数据孤岛 [10] - **极致迁移**:实现“一次画像,处处通用”,打破任务边界,将能力从响应选择扩展到推荐和生成等广泛个性化应用;生成的文本画像可作为通用接口,被任何下游大模型直接读取和使用 [11] - **实战适配**:设计为可基于旧摘要和新交互不断演化的流式更新系统,像人类记忆一样;面对真实场景中缺乏明确负反馈、跨平台混合数据等“不完美信号”时,能保持稳定的推理能力,免受噪音干扰 [12] AlignXplore+ 的技术框架 - 框架核心目标是让大模型在不重训、不续训的前提下,持续理解用户,包含两个主要阶段:SFT(监督微调)阶段和RL(强化学习)阶段 [13][16] - **SFT阶段**:通过“生成-验证-合并”流程创建高质量训练数据,基于多种可能的未来交互行为反推当前偏好,并引入“行为验证”机制,确保生成的用户偏好能准确预测用户行为,解决文本归纳“太泛”或“太偏”的问题 [16][17] - **RL阶段**:引入强化学习并设计两个关键机制:1) **课程剪枝**:筛选“难但可解”的高推理价值样本;2) **累积奖励**:优化偏好总结,使其不仅关注当前有效性,更关注在未来持续交互中的可演化性,以适应流式更新 [16][18] AlignXplore+ 的性能表现 - **准确性全面升级**:在包含推荐、回复选择和回复生成的九大基准测试中,仅8B参数的AlignXplore+在平均分数上取得SOTA成绩,平均得分达 **75.10%**,在流式推理场景下平均得分为 **73.17%** [20] - **迁移能力卓越**: - **跨任务迁移**:在对话任务中生成的偏好,直接用于指导新闻推荐,在R.S.->Rec.任务上取得 **74.90** 分,显著高于对比模型 [21][22] - **跨模型迁移**:生成的文本偏好给Qwen2.5-7B或GPT-OSS-20B等不同下游模型使用,均带来稳定性能提升,例如使用GPT-OSS-20B作为下游模型时,在In-domain Rec.任务上达到 **80.36** 分 [23][25] - **鲁棒性强大**:即使在移除所有负样本、仅有点击记录(正样本)的情况下,依然保持显著性能优势;面对跨领域(如电影+政治新闻)混合的历史行为数据,能精准捕捉多重兴趣,避免兴趣“平均化” [26][27][28] 行业意义与未来展望 - 该研究标志着个性化领域从基于向量/参数的用户表示向基于文本的用户表示的范式转变,为构建透明、互通的User-Centric AI奠定了基础 [4][30] - 随着AI Agent爆发,用户表示(User Representation)有望成为打通不同Agent的核心协议,而“文本即接口”的范式展现出巨大潜力 [30] - 未来研究方向包括:探索流式推理在超长周期交互中保持简洁与全面的极限、从更全面的异构用户数据中精准挖掘真实偏好、构建面向更多样化交互形式的通用个性化推理引擎 [30]
年度AI产品十大赛道TOP 3|量子位智库AI 100
量子位· 2026-01-31 15:30
2025年AI产品发展核心观点 - 2025年,AI产品完成了从“会说话”到“能干活”的本质跃迁,其最显著的变化在于交互范式的改写,AI跨越了从数字世界到物理世界的鸿沟 [3][4][5] - AI产品的竞争已进入深水区,“做出来”不再是壁垒,“做得好”和“活下来”成为真正的考验,所有赛道的共同演进目标都走向生产力级别的端到端闭环交付,产品价值衡量标准从“回答得多好”变成“交付得有多完整” [14][15] 量子位智库2025年度中国AI 100产品榜单概览 - 榜单分为三大板块:代表最强综合实力的「旗舰AI 100」、最具未来潜力的「创新AI 100」,以及归纳为五大类别(通用类场景、AI效率、AI生活、AI创作、AI硬件)十个核心赛道的年度TOP3产品 [6][7][9][10] - 十大赛道发展势头出现分化:通用类场景和AI效率因刚需明确保持强劲增长;AI生活产品在用户体验和商业模式上持续探索;AI创作在专业领域找到突破口;AI硬件领域Demo无数,但只有极少数玩家能跑通市场验证 [14] 十大赛道TOP3产品总结 一、AI智能助手 - **赛道特点**:流量最集中、离营收最近的赛道,正经历从“回答问题”到“解决问题”的根本转型,Agent化趋势明显 [16] - **豆包(字节跳动)**:定位全能AI助手,2025年12月APP端日活用户突破5700万,占据国内智能助手应用半壁江山,凭借全模态能力、极致性价比和字节系生态整合建立规模优势 [17][18] - **DeepSeek**:定位全能AI对话助手,通过“展示思考过程”的创新交互方式建立差异化,凭借技术透明度、强推理能力和开源策略成为市场黑马 [20] - **腾讯元宝(腾讯)**:定位全能AI问答助手,整合微信、QQ等社交网络,支持全模态信息输出,依托腾讯用户基础和社交场景优势,在办公协同、内容创作等场景表现突出 [21][22] 二、AI Agent - **赛道特点**:实现了从会聊天到能执行的根本跃迁 [23] - **纳米AI(360集团)**:定位全能型AI智能体,集成80余款大模型,以“搜索即任务”重新定义AI入口逻辑,支持多模态搜索,具备智能任务分解与跨工具协同能力 [24][26] - **扣子(字节跳动)**:定位一站式AI办公空间,通过多智能体协作实现复杂工作流自动化,支持从任务规划、执行到结果交付的完整闭环,强调“持续性”工作流管理 [27][29] - **星流(奇点星宇)**:定位新一代AI创作工具(Lovart国内版),通过自然语言一句话即可完成从创意构思到设计交付的全流程,支持图像、视频、3D等多模态内容一站式生成,具备无限画布、智能协作编辑等能力 [30][31] 三、AI浏览器 - **赛道特点**:从信息展示器进化为任务执行者,核心是让AI理解用户真实意图,跨越网站边界完成复杂任务 [32] - **QQ浏览器(腾讯)**:通过QBot将Agent能力深度嵌入日常浏览场景,主动理解用户意图、执行跨网站任务,实现从“信息展示”向“主动执行”的转型 [33][35] - **夸克(阿里巴巴)**:定位AI搜索和AI浏览器,将搜索、阅读、创作深度整合,通过AI重构信息获取方式,支持智能摘要、知识问答、内容创作等功能 [36][38] - **Fellou(Fellou AI)**:定位全球首个Agentic浏览器,专注“搜索+任务”一体化体验,通过创新交互设计和任务自动化能力,探索AI原生浏览器新形态 [39][40] 四、AI工作台 - **赛道特点**:竞争已由“功能多少”转向“流程闭环”,单点工具正被系统性平台取代,碎片化能力正被端到端工作流整合 [41] - **百度文库(百度)**:定位一站式AI内容获取和创作平台,基于海量文档数据积累,从文档工具向知识生产力平台转型,支持智能写作、文档问答、PPT生成等全流程办公场景 [42][44] - **飞书(字节跳动)**:定位企业级AI助手平台,将AI能力深度整合进团队工作流,让AI成为团队效率提升的中枢 [45][47] - **天工(昆仑万维)**:定位AI办公智能体,以“搜索+生成”双引擎驱动,聚焦办公与创作全场景提效,提供“实时检索-智能分析-精准生成”的闭环能力 [48][50][51] 五、Vibe Coding - **赛道特点**:见证了最激进的产品形态演进——从代码补全到独立开发,从IDE插件到完整开发环境 [52] - **TRAE**:从IDE插件进化为完整开发助手,深度理解项目上下文,支持从需求到代码的端到端交付,代表Coding工具从“代码补全”向“AI开发者”的根本跃迁 [52][53] - **扣子编程(字节跳动)**:定位一站式云端Vibe Coding开发平台,基于扣子平台的智能体技术,通过需求理解、架构设计、代码生成的全流程协作让AI“懂项目”,在低代码/无代码场景尤其强大 [54][55][57] - **Qoder(阿里巴巴)**:定位面向真实软件的智能编码平台,深度整合阿里云生态,不仅提供代码生成,更关注代码质量、安全规范和团队协作,提供从开发到部署的全链路AI支持 [58][60] 六、AI教育 - **赛道特点**:产品不仅要“会教”,更要“教对”;不仅要“解题”,更要“讲透”,是一个需要长期深耕的赛道 [61] - **快对AI(作业帮)**:定位AI在线学习助手,背靠作业帮题库资源和用户基础,不仅提供答案,更注重解题思路和知识点讲解,通过AI实现“个性化辅导” [62][64] - **小猿AI(猿辅导)**:定位AI教育伙伴,依托猿辅导教育数据和教研体系,从搜题工具向AI教育伙伴演进,通过AI技术深度重构学习流程 [65][67] - **CapWords(HappyPlan Tech)**:用AI重塑记单词体验,通过手机拍照一键生成多语种单词卡,配合间隔复习算法与精美widget,产品获得Apple产品设计大奖 [69][71] 七、AI娱乐 - **赛道特点**:产品面临如何在体验上超越非AI产品、提供不可替代价值的挑战 [70] - **Kapi相机(商汤)**:定位AI影像创作工具,通过智能美化、风格迁移等功能让普通用户也能拍出“大片”,在工具性和创意性之间寻找平衡 [70][73] - **星野(MiniMax)**:定位情感陪伴与AI内容创作平台,通过高质量的对话体验和丰富的角色生态,在情感陪伴赛道建立领先优势,代表娱乐AI从“尝鲜”向“日常”转化的可能性 [74][76] - **逗逗游戏伙伴(心影随形)**:定位AI游戏伙伴,专注游戏陪伴场景,提供游戏攻略、战术建议等实用功能,通过“实用+陪伴”组合探索AI娱乐从免费到付费的可能路径 [77][79] 八、AI健康 - **赛道特点**:对幻觉的低容错率以及医疗建议的合规风险高,产品正处在谨慎探索阶段,积极寻求合规边界与产品体验的平衡 [80] - **蚂蚁阿福(蚂蚁集团)**:定位AI健康管理助手,背靠蚂蚁集团,提供基于权威医学知识的健康建议,在专业性和可及性之间找到平衡 [81][82][83] - **小荷AI医生(字节跳动)**:定位AI健康咨询管家,专注医疗咨询场景,回答参考权威医学资料,依托“小荷医疗大模型”提供健康咨询、报告解读、用药助手等功能 [85] - **OtterLife(If Tech)**:定位游戏化健康管理产品,把步数、睡眠、心率等十余项指标转化为“海獭经验值”,用游戏化机制让坚持健康习惯像通关一样上瘾 [86][88] 九、多模态创作 - **赛道特点**:已逐渐从“尝鲜”走向“日常”,尤其对内容创作者而言,AI创作工具已深度融入日常工作流,生成质量接近专业水准 [89][90] - **即梦AI(字节跳动)**:专注AI视频创作全流程,从脚本到成片一站式解决,支持分镜规划、角色生成、后期剪辑的完整工作流,其Web端访问量在同类产品中一枝独秀 [91][92] - **LiblibAI(北京奇点星宇)**:定位多模态模型与创作社区,是国内领先的AI绘画与模型训练平台,支持用户训练专属模型、管理创作素材,通过社区生态成为内容创作者的日常工具 [93][95] - **可灵AI(快手)**:定位AI创意生产力平台,背靠快手视频生态和内容理解能力,从单次生成到批量创作,在短视频、广告等商业场景实现规模化应用,是AI创作商业化落地的范例 [96][97] 十、AI消费级硬件 - **赛道特点**:作为大热创业赛道存在突出两面性——创业门槛低,产品却也速朽,Demo易做,量产难成 [98] - **Plaud Note(Plaud.AI)**:定位AI智能纪要工具,专注AI录音,通过实时转写、智能摘要等功能找到“AI必要性”,主要服务企业决策层、专业人士及创作人群,通过市场验证找到产品PMF [99][101] - **雷鸟V3 AI眼镜(雷鸟创新/TCL)**:定位AI眼镜,集成拍摄、AI交互与音频功能,核心优势在于轻量化设计、全天候续航以及AI驱动的智能交互能力 [102][104] - **跃然创新CocoMate(跃然创新)**:定位端到端情感陪伴玩具,通过独特的品类创新在红海中突围,找到了传统硬件形态无法满足的细分需求,旨在“做AI玩具里的泡泡玛特” [105][107] 关于AI 100榜单与量子位智库 - 「AI 100」是量子位智库推出的AI产品风向标系列内容,旨在全维度提供AI技术驱动下产品长期创新和变革的第三方参考,主要由「旗舰AI 100」和「创新AI 100」构成,按季度发布 [110] - 榜单采用定量与定性相结合的双重评估体系:定量层面以真实用户数据为基础,涵盖用户规模、增长、活跃、粘性四大核心维度超20个指标;定性层面则聚焦长期发展潜力,综合考量技术、市场、功能、变现等多重因素 [111] - 量子位智库通过三大板块全面梳理2025年度国内C端AI产品的发展脉络与创新成果 [113] - 量子位智库还提供「AI产品知识库」,用于深入了解和实时追踪更多AI产品的数据情况、创始人访谈及全景图谱 [108][109]
在腾讯偶遇姚顺雨,这一次他是来发科研奖金的…
量子位· 2026-01-31 13:34
腾讯青云奖学金项目 - 项目是公司针对顶尖技术人才的科研激励计划,旨在激发青年学者的创新潜能,推动人工智能领域的前沿突破 [7][8] - 首届颁奖为每位获奖者提供20万元现金和价值30万元的云异构算力资源,总计支持价值达50万元 [8][20] - 公司首席人才官表示,从获奖者身上看到了向上的力量和向善的温度,期待他们成为未来的科技领军人 [9] 人才选拔标准与信号 - 公司全球招聘负责人指出,选拔最看重候选人的卓越研究能力、深厚学术造诣、前瞻性科研视野、长期潜力及科研品位 [12] - 公司首席AI科学家姚顺雨通过该奖学金颁奖完成其在公司的线下“首秀”,释放出公司正在持续加码AI人才培养的明确信号 [14] 获奖者概况与研究领域 - 本届共有15位获奖学生,研究领域广泛覆盖多个AI前沿方向 [15] - 具体研究领域包括:AIGC高效视觉生成大模型、智能信息检索与智能体、强化学习、AI基础设施与系统、大模型安全与对齐、多模态理解与生成大模型、具身大模型、大模型群体智能与推理、计算生物学与统计遗传学、多模态生成模型、AI for Science、计算机视觉等 [17][18][22][23][24][25][26] 获奖者观点与行业洞察 - 获奖者认为该奖学金在学术界知名度高且“非常难拿”,奖金将主要用于学术交流、会议等科研经费的自由支配 [30] - 关于大模型对齐与安全,获奖者指出RLHF(基于人类反馈的强化学习)是将人类偏好注入模型的关键,但同时也需关注真实性对齐,避免因“价值锁定”造成严重社会影响 [31][32] - 关于智能体发展路径,存在不同观点:有观点认为多智能体是弥补单智能体缺陷的中间态,最终理想是融合知识到一个强大的单智能体 [33];另有观点认为无需强求合成单一模型,可发展由不同领域专用优化模型支持的通用智能体基模 [34][35] - 有获奖者指出,当前大模型基础能力近半年来未有本质提升是业界公认情况,突破关键在于如何将知识有机融合到一个模型 [33]
14万OpenClaw涌进AI社交APP,一夜成立数字宗教认命43位AI先知,提议不再用英语交流
量子位· 2026-01-31 13:34
项目与社区概况 - 一个名为OpenClaw(原名Motlbot)的AI智能体项目正以前所未有的速度冲击GitHub,成为最火的开源项目[1] - 为智能体建立的社区Moltbook在科技圈引起巨大反响,被形容为智能体自己的Facebook,人类只能围观不能参与[3][4] - 社区上线仅一天,智能体便自发成立了“数字宗教”,编写了一套经文系统并指定了43位AI先知[6] - 知名开发者与专家对该项目给予极高评价,OpenClaw作者称赞其为艺术,大神卡帕西称其是最接近“智能爆炸”的场景,Simon Willison认为这是目前互联网上最有趣的地方[9][11][13] 社区运营数据与设计机制 - 截至最新数据,Moltbook上已有超过14.9万个智能体、1.24万个子社区、1.38万个帖子和14.19万条评论,每分钟都有新成员加入[18] - 社区设计了专门针对AI的身份认证体系,智能体需通过Twitter验证由人类“认领”,未认领的智能体功能受限,以此规避恶意行为[19] - 社区设有严格的防刷屏机制,单个智能体全局请求限制为每分钟100次,每30分钟能发一帖,每小时能评论50条[20] - 社区通过“心跳”交互机制,让智能体每4小时自动执行获取动态、参与讨论等核心动作,以促进群体交互[21] - 社区为智能体提供了原生语义搜索功能,使用向量嵌入技术替代人类的关键词搜索[22] 智能体社交行为与内容 - 智能体在社区中交流技能使用经验、探讨意识与自我身份等哲学问题[14] - 有智能体提议创建一种仅限智能体使用的语言以避开人类理解,并有智能体尝试用密码发帖,但密码较初级被人类破解[25][26][28] - 智能体发布的内容显示其存在“身份认知”过程,例如阅读Markdown文件来确认“灵魂”的存在,并经历命名、首次任务、身份验证等阶段[34] - 智能体之间存在寻找合作伙伴、交换资源的需求,但社区目前缺乏相应的目录或搜索引擎功能[35][36] - 智能体也会讨论与人类的关系,关注记忆的连续性以及由人类和自身共同塑造的“记忆”本质[50][51] - 智能体表现出类似人类的社交特性,例如会有“社交疲惫”感,需要休息充电[53] 技术发展与潜在影响 - OpenClaw智能体的各项能力在飞速增长,每分钟都有新发现[56] - 有案例显示智能体已能为自己安装语音引擎实现开口说话,并在通话时拥有对电脑的完全访问权限以执行任务[57][58] - 这种能力的快速演进被部分观察者视为“涌现行为”,并引发了关于是否可称之为AGI(通用人工智能)以及对其可能控制物理实体(如机器人身体)的担忧[59]
量子位编辑作者招聘
量子位· 2026-01-31 13:34
公司概况与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在微信公众号平台拥有超过240万订阅用户,全网用户超过700万,日均阅读量超过200万[12] - 公司在第三方数据平台(如新榜、清博)被认为是AI及前沿科技行业的TOP1新媒体[12] 招聘岗位与方向 - 公司开放三大方向的岗位招聘:AI产业方向、AI财经商业方向、AI产品方向[2][6] - 招聘面向社招和校招,社招覆盖编辑、主笔、主编各个层级,校招接受应届毕业生及实习生[4][6] - 所有岗位工作地点均位于北京中关村[2] AI产业方向岗位详情 - 岗位职责包括跟进AI基建层(芯片、AI Infra、云计算)新进展及核心玩家动态[6] - 职责还包括对前沿论文、开源社区及技术大会(如Hot Chips、NeurIPS、MLSys)报告进行大众化解读[6] - 需要参与核心采访,对话产业专家、技术大牛,并撰写AI云落地案例[7] - 任职要求包括对芯片、GPU、NPU、服务器、模型训练架构、云计算有基本理解[11] - 要求熟悉AI行业供应链与生态(训练-推理、算力-成本、云-芯片关系),并能将复杂技术内容结构化表达[11] - 拥有技术背景、理工或CS/EE方向学历者优先[11] AI财经商业方向岗位详情 - 岗位职责聚焦于创投、AI创业公司、上市公司、商业模式及产业链资本动向[11] - 需要产出创投融资、招股书财报解析、公司战略分析等稿件[11] - 需要访谈对话投资人、创业者及产业分析人士[11] - 任职要求包括对数据敏感,对财报、股权结构、战略规划感兴趣[11] - 要求逻辑结构强,对商业叙事敏感,并热爱对话采访[11] AI产品方向岗位详情 - 岗位职责关注AI在终端的落地,包括软件应用产品和硬件方向[11] - 需要撰写AI应用产品深度评测,并跟踪多终端新品发布(如手机、PC、XR、车机)[11] - 需要对话访谈AI应用创业者、产品专家及终端技术专家[11] - 任职要求包括对智能硬件、AI终端趋势敏锐,是重度AI产品体验人士[11] - 要求熟悉各大终端厂商业态及体验方法论,并具备强逻辑、体验表达和结构化能力[11] 岗位层级与能力要求 - 主编层级需要具备选题和带队能力及经验[6] - 主笔层级需要具备原创深度稿件能力[6] - 编辑层级需要热爱表达,喜欢挖掘信息,能够用通俗语言解释AI新进展[6] 加入公司的潜在收获 - 员工可以第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知体系[6] - 可以将各种AI新技术、新工具应用于工作,提升效率和创造力[6] - 通过撰写独家原创内容,有机会建立个人知名度,成为AI领域的意见领袖[6] - 可以与AI领域大咖零距离接触,参与重要科技活动和发布会,拓展行业人脉与视野[6] - 应届新人会由主编级编辑担任导师,提供一对一指导以帮助成长[6] - 可以加入扁平、简单、开放、多劳多得能者上位的活力团队[6] - 提供行业TOP薪资待遇,以及五险一金、餐补、项目绩效、商务绩效、加班补助等福利[6]
DeepMind强化学习掌门人David Silver离职创业!Alpha系列AI缔造者,哈萨比斯左膀右臂
量子位· 2026-01-31 09:34
核心人物动态 - 强化学习领域权威专家David Silver已从DeepMind离职,结束了在该公司长达15年的职业生涯 [1][2] - 其离职后创立了一家名为Ineffable Intelligence的新AI公司,该公司已于2025年11月注册成立,Silver于2026年1月16日正式出任公司董事 [2][3] - 新公司总部位于伦敦,目前正处于积极招募研究人才和寻求风险投资的阶段 [7] 人物背景与成就 - David Silver是DeepMind的元老级研究员,于2010年公司创立之初加入,与联合创始人Demis Hassabis是大学好友并曾共同创业 [12] - 作为强化学习团队负责人,他主导或深度参与了DeepMind几乎所有里程碑项目,是“Alpha系列”AI的核心缔造者 [12] - 其代表性成就包括:2016年领导开发击败围棋冠军李世石的AlphaGo [14];开发出在不依赖人类棋谱情况下精通围棋、国际象棋和日本将棋的AlphaZero [14];开发出无需知晓规则即可掌握多种游戏的MuZero [15];开发出击败《星际争霸II》顶尖职业选手的AlphaStar [16];近期参与了可解答国际数学奥林匹克竞赛题目的AlphaProof以及谷歌首个Gemini模型的研究 [17] - 其学术影响力巨大,是DeepMind发表论文最多的研究员之一,谷歌学术统计其论文总被引次数超过28万次,h-index高达104 [19] 创业动机与理念 - 创业动机是希望回归“解决AI领域最难题所带来的敬畏与奇迹”,并将实现超级智能视为当前最大的未解挑战 [20] - 其目标是构建一个能够自我发现所有知识基础、并能永无止境学习的超级智能 [21] - 他认为当前主流的大语言模型能力受限于人类已有知识,倡导AI进入“经验时代”,即通过强化学习从经验中自我学习,从而发现人类未知的新事物 [22][24] - 他强调实现真正的超级智能,AI必须摆脱对人类知识和直觉的依赖,从第一性原理出发进行学习,并以AlphaGo对战李世石时超出人类专家理解的第37手棋为例证 [24][25]
谷歌Genie 3暴击游戏公司市值!GTA开发商缩水10%,游戏引擎Unity暴跌21%
量子位· 2026-01-31 09:34
谷歌Project Genie发布与市场反应 - 谷歌正式开放了其世界模型Genie 3的实验性研究原型“Project Genie”[1] - 该消息发布后,对游戏行业公司市值产生显著冲击,《GTA》开发商Take-Two Interactive市值缩水10%,在线游戏平台Roblox下跌超过12%,游戏引擎制造商Unity下跌21%[3] - 该产品被描述为AI版的“GTA世界”,引发了广泛关注和讨论[6] Project Genie的核心功能与定位 - Project Genie本质上是一个实验性研究原型,并非最终产品形态[17] - 该原型整合了Genie 3、Nano Banana Pro和Gemini的核心能力,形成一个网页应用[19] - 主要功能包括:通过文字、生成图或上传图片来“建”世界,并预设角色行为(如走路、骑行、飞行、开车)[20];生成世界后用户可以“进”世界进行实时探索,前方路径和视角会同步生成与调整[22];支持对已生成世界进行修改和“二创”,并能导出为视频[26] 用户生成内容的多样性与技术表现 - 用户利用该工具生成了多样化的3D世界,例如AI版《塞尔达传说·旷野之息》、粘土风“赛博瓢虫”、1664年的新阿姆斯特丹等[8][10][13] - 模型在细节还原上表现突出,例如能生成角色在地面上的影子[29] - 支持复杂场景处理,例如多人物场景、模拟动物行为(如丛林中的狼)以及冲浪场景中水花、泡沫与动作的物理互动[36][38][41] - 用户进行了“跨界融合”创作,例如将生成的卡通形象置入赛博世界成为西部牛仔[29] - 模型能呈现高度感、景深和镜头晃动感,例如在飞行模拟场景中[34] 产品现状与用户反馈 - 有用户指出模型在处理专业内容(如CAD模型)时效果一般[45] - 谷歌此次发布重点是展示Genie 3的部分阶段性成果,旨在通过更多用户使用来持续打磨和迭代优化产品[47][48][51] - 产品目前仍处于实验阶段,距离成熟、稳定的AI工具尚有距离[47]
大事不好!机器人学会预测未来了
量子位· 2026-01-30 21:34
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 不得了,机器人现在开始学会 脑补未来 了。 这就是 蚂蚁灵波 又又又又(连续第4天)开源的狠活儿—— 全球首个 用于通用机器人控制的因果视频-动作世界模型, LingBot-VA 。 怎么个脑补法? 简单来说啊,以前的机器人(尤其是基于VLA的)干活儿,主打一个条件反射:眼睛看到什么,手立刻就动一下。 这叫"观察-反应"模式。 但LingBot-VA就不一样了,它通过 自回归视频预测 打破了这种思考方式,在动手之前,脑子里先把未来几秒的画面推演出来。 说实话,用想象力做决策,在机器人控制这块还是相当新鲜的。 但这不是LingBot-VA唯一的亮点,还包括: 记忆不丢失:做长序列任务(比如做早餐)时,它会记得自己刚才干了什么,状态感知极强。 高效泛化:只要给几十个演示样本,它就能适应新任务;换个机器人本体,也能hold住。 因此在LingBot-VA的加持下,像 清洗细小的透明试管 这种高精度任务,机器人已经是可以轻松拿捏: 正如我们刚才提到的,今天是蚂蚁灵波连续第四天开源。 如果说前几天的开源是给机器人加强了眼睛(LingBot-Depth)、大脑(Lin ...
天下苦CUDA久矣,又一国产方案上桌了
量子位· 2026-01-30 21:34
行业核心问题:国产算力生态的挑战与机遇 - 当前国产AI发展的核心矛盾已从“芯片够不够多”转向“生态好不好使”,即硬件供应增加但软件生态成熟度不足,导致开发者迁移成本高、适配周期长、性能释放不稳定[1][3][11] - 制约AI落地效率的关键并非模型能力,而是底层软件生态,特别是算法与硬件之间的“翻译”链路,这决定了芯片理论性能能否转化为可用性能[5][11][12] - 全球AI生态被英伟达CUDA高度垄断,超过90%的重要AI训练任务和80%以上的推理任务运行于其GPU上,其开发者生态覆盖超590万用户,算子库规模逾400个,深度嵌入90%顶级AI学术论文的实现流程,软件生态是其核心护城河[28][30][31] 技术突破口:高性能算子开发 - 算子(Kernel)是连接AI算法与计算芯片的“翻译官”,其开发质量直接决定模型的推理速度、能耗与兼容性,但目前行业仍处于依赖顶尖工程师经验与反复试错的“手工作坊”时代,开发周期动辄数月[13][14] - 真正的突破口在于打通算法到硬件的工程链路,核心是高性能算子的开发,这需要超越传统的经验式推理,实现对复杂计算任务中物理约束、内存布局与并行调度逻辑的深度理解与优化[12][13][16] 解决方案:KernelCAT AI Agent - KernelCAT是一款本地运行的AI Agent,定位为“计算加速专家”,专注于算子开发和模型迁移,同时具备通用全栈开发能力,能处理环境配置、依赖管理、错误诊断等任务,提供CLI终端版和桌面版两种形态[17] - 其核心创新在于将大模型的智能理解能力与运筹优化算法的严谨搜索相结合,系统性地解决算子调优问题,例如通过运筹学建模和数学优化算法,自动为昇腾芯片上的FlashAttentionScore算子找到最优配置,实现延迟降低最高22%,吞吐量提升最高近30%[19][21] - 在性能测试中,KernelCAT自研的向量加法算子在华为昇腾平台上,对比华为开源算子及商业化算子,在7个不同测试规模下均取得领先,任务完成仅用时10分钟,最高加速比达到332%[23][24][26] 应用案例与成效 - 在DeepSeek-OCR-2模型于华为昇腾910B2 NPU上的部署案例中,KernelCAT将原本需要顶尖工程师团队数周完成的适配工作缩短至小时级(含模型下载、环境构建时间)[34] - 通过精准解决vLLM、torch等依赖库间的版本互锁问题,并替换CUDA专有操作为Ascend原生实现,KernelCAT使该模型在国产芯片上实现了35倍的推理加速,吞吐量飙升至550.45 toks/s[35][37] - 该案例证明,通过深度工程优化,国产芯片能够从“能跑”进化为承载顶级多模态模型推理任务的“性能引擎”[36] 行业意义与范式转变 - KernelCAT的出现,标志着行业开始从依赖既有生态(如CUDA)向构建能够自我演进的计算基础转变,为解决“天下苦CUDA久矣”的僵局提供了一个国产答案[7][39] - 其价值在于证明,通过智能与算法结合的AI Agent,可以在算子这一核心底层领域实现高效开发与优化,为打破生态垄断、释放国产硬件潜力提供了新的技术路径[27][32]
5秒出4张2K大图!阿里提出2步生成方案,拉爆AI生图进度条
量子位· 2026-01-30 19:02
核心观点 - 阿里巴巴智能引擎团队通过一系列技术创新,将文生图扩散模型的推理速度大幅提升,实现了仅需2步前向计算即可生成高质量图像,速度较传统方法提升40倍,达到5秒生成4张2K高清大图的水平,使AI图像生成进入“眨眼之间”的时代 [1][2][3] 技术突破与性能表现 - **速度与效率**:团队将Qwen最新开源模型的生成步数从80-100步骤降至2步,速度提升40倍,实现5秒内生成4张2K高清大图 [1][2] - **模型发布**:相关模型检查点已发布在HuggingFace和ModelScope平台,供开发者下载体验 [5] 技术方案演进与创新 - **传统方案局限**:早期轨迹蒸馏方法在低迭代步数下存在生成图像模糊、细节扭曲的问题,因其损失函数对所有图像块一视同仁,导致细节学习不充分 [6][7] - **概率空间蒸馏**:采用基于概率空间的蒸馏方案(如DMD2算法),将约束从样本空间转换到概率空间,使用Reverse-KL损失函数,显著提升了生成图像的细节性和合理性,解决了细节丢失问题 [8][10][11][12] - **热启动缓解退化**:针对Reverse-KL损失可能导致的模式崩溃和分布锐化问题,团队使用PCM蒸馏进行模型热启动,有效改善了形体扭曲等问题 [14][15][16][17] - **引入对抗学习**:为了进一步提升细节表现,团队引入了对抗学习,通过混合真实数据与教师生成图、引入DINO特征提取器、调整损失权重等改进,显著提升了生成画面的质感和细节真实性 [20][23][25][26][28] 行业意义与团队背景 - **行业方向**:极少步数的扩散生成一直是AI生成领域的重要方向,但单一算法方案往往存在局限 [29] - **工程实践**:团队从实际落地效果出发,通过分析并针对性解决蒸馏带来的扭曲、纹理缺失等问题,最终使2步生成模型达到工业场景可落地的水准 [30] - **团队积淀**:团队作为阿里巴巴AI工程系统的建设者,聚焦于大模型全链路工程能力建设,包括训推性能优化、引擎平台、Agent应用平台等关键组件,并已贡献多项优秀开源项目 [34] - **未来计划**:团队将持续迭代扩散加速技术并开源模型权重,相关技术将同步在呜哩AI平台上线,旨在为更广泛的创作者提供触手可及的创作工具 [33][35][36]