量子位
搜索文档
小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026
量子位· 2025-12-15 16:05
AI演进与生物进化的类比 - AI技术演进与生物进化遵循相似的底层逻辑,即通过尝试不同变体并筛选出更优方案的过程[1][7] - AI发展呈现“长期停滞+突然跃迁”的非线性模式,类似于生物学中的“间断平衡”理论[3][7] - AI进化与外部环境(如硬件、数据)相互影响,类似生物进化与环境(如大气成分)的相互作用[15][16] AI研发中的试错与迭代机制 - AI“配方”的设计本质上是不断试错的过程,最终能落地的通常只是“配方”本身,而非99%缺乏可操作价值的理论论文[10][11] - 设计流程为尝试不同变体,筛选有效方案发布,他人再进行复现和跟进[12] - “世代间隔”类比于复制一个新想法所需的时间,该周期已从过去的约两年缩短至现在的六个月[18][20] - 实验速度对迭代至关重要,更快的实验能加速进化过程[33] 开源对AI发展的核心加速作用 - 开源是AI进化的核心加速器,若没有开源,行业进化速度可能慢上一千倍[3][13][35] - PyTorch等工具使研究者能近乎完美地复现他人发布的“配方”,极大缩短了代际周期[21] - 当前许多公司(如小米)积极拥抱开源,这与过去大公司对开源不感冒的情况形成对比[37][38][56] 跨领域探索与架构多样性策略 - 不同AI任务间存在相互作用,例如视觉领域的方法可能应用于语音或语言任务[27] - Transformers最初为语言模型设计,后来在各种任务中广泛应用,体现了跨领域迁移的价值[29] - 公司应在不同任务上探索新思路,因为为特定限制研发的解决方案可能具有极高的通用价值[30][42] - 需要维持模型架构的多样性,保留多种技术路线,以增加孕育重大突破的机会[13][45] 大公司的双轨发展策略 - 大公司应采取“两条腿走路”的策略:一方面利用当前领先技术(如Transformer)赋能现有产品,另一方面投入资源进行探索性研究,寻找下一个颠覆性机会[5][13][45] - 在Transformer和大型语言模型主导的当下,公司不可能完全押注其他路线,但需为技术范式转变做好准备[46][47][48] - 例如,小米在大型语言模型上的研究主线是利用最先进的AI技术赋能“人车家全生态”,同时有团队负责探索性研究,尝试大量不同方向[49] 探索性研究的具体实践与案例 - 探索性研究成功率极低,但旨在寻找能产生巨大影响的成果[49] - 研究人员有责任判断并推广有价值的想法,未能妥善推广是自身的失误[52] - 团队正在研发名为Zapformer的新型通用声音基座架构,专注于语音领域[53] - Zapformer相较于前代Zipformer实现了三大跨越:从人声建模到通用声音理解、通过梯度流理论指导设计将语音识别精度提升10%-15%、为海量数据训练移除Dropout并升级优化器以提升通用性与稳定性[57]
布林坦承谷歌低估Transformer,“还被OpenAI挖走了Ilya”
量子位· 2025-12-15 16:05
文章核心观点 - 谷歌联合创始人谢尔盖·布林复盘公司发展史,承认在Transformer论文发布后,公司错误地低估了AI的潜力,未能加大投入,并将市场机会拱手让给了OpenAI [5][26][27] - 谷歌凭借其深厚的学术积累、全栈技术实力(如自研TPU芯片、大规模数据中心)以及在Gemini等项目上的努力,正在重回AI领先地位 [6][29][30][48] - 布林对未来的技术趋势、教育模式、创业方法论以及个人职业选择提出了见解,强调利用AI、关注量子计算与材料科学,并反思了过早商业化的教训 [8][32][37][42] 谷歌的创立与早期发展 - 谷歌起源于1995年斯坦福大学,拉里·佩奇与谢尔盖·布林基于“数字图书馆”项目开发了BackRub搜索算法,该算法通过链接分析网页重要性 [10][16][17] - 最初尝试将BackRub技术授权给其他公司失败,促使二人决定自行创业,并获得了天使投资,尽管布林中断博士学业的决定起初未获父母支持 [18] - 公司将BackRub更名为“Google”,名称源自代表1后面有100个零的数学表达式,寓意整合全球信息的宏大野心 [19][21] - 早期谷歌文化充满创新与打破常规的精神,例如用乐高积木搭建服务器机箱,在浏览器涂鸦中暗示员工参加火人节 [23] 从AI领先到暂时掉队的反思 - 谷歌早期积极投入基础研发并吸纳顶尖人才,为其在AI领域建立了先发优势,例如2012年发表Cat paper证明无监督学习可行性,并最早将深度学习大规模工程化 [22][25] - 公司曾汇聚了众多顶尖AI专家,如Hinton、吴恩达、Ilya Sutskever、Demis Hassabis等,组成了强大的AI团队 [25] - 关键失误在于,2017年Transformer架构论文发布后,谷歌内部未给予足够重视,未加大计算资源投入,且因担心聊天AI“会说蠢话”而不敢轻易推向市场 [26] - 这一保守策略使得OpenAI抓住机会,甚至从谷歌挖走了包括Ilya在内的关键人才,从而在生成式AI领域取得领先 [27] 谷歌重回AI领先地位的基石 - 公司受益于长期的研发历史,包括谷歌大脑团队和对早期神经网络的投入,使其在AI领域仍保持技术优势 [29] - 谷歌拥有全栈技术能力,包括很早就为AI开发专用TPU芯片、早期使用GPU、大规模数据中心以及自研半导体和深度学习算法 [30] - 布林本人退休后重新回归,将大量精力投入Gemini的研发,参与技术讨论乃至代码和训练细节,推动核心AI产品发展 [48] - 布林认为,尽管AI发展日新月异且竞争激烈,但凭借上述基础,谷歌能始终处于领先地位 [31] 对AI未来及技术趋势的判断 - AI技术将赋予人们在工作、创业、健康和生活方面更大的能力,其潜力毋庸置疑,但最终能发展到多智能尚不可知 [31] - 建议个人积极利用AI作为工具,例如让其生成多个想法以供启发和完善,而非完全替代人类 [32][33][34] - 计算机科学和编码能力依然至关重要,因为更好的编码能力有助于开发更好的AI [35] - 量子计算和材料科学是被低估的、具有长期影响的未来技术,值得关注AI和量子计算在材料科学中的应用 [8][37] - 不推荐攻读比较文学等专业,因为AI在这些创造性工作上可能更擅长 [36] 对教育模式与创业方法的建议 - 大学应重新思考定位,知识的传播正通过在线平台和AI普及化,教育不应局限于固定地点和实体建筑,跨地域远程教育是可预见的发展路径 [38][39][40] - 以谷歌眼镜的失败为例,告诫创业者不要过早将不成熟的想法商业化,需在成本控制和消费者体验上做好充足准备,避免被外部期望裹挟而无法完善产品 [42][43][45] - 布林反思自己当初推广谷歌眼镜时过于自信,但认识到像乔布斯那样一次性推出成功产品是独一无二的 [43][44] 个人职业选择的反思 - 布林谈及从谷歌“退休”后又“复出”的经历,表示退休决定是个错误,因为离开工作后感到思维迟钝、状态变差 [47][49] - 回归后,他深度参与公司AI研发,并通过日常与AI对话(如咨询建设数据中心的电力与成本问题)来保持思维敏锐 [48]
量子位编辑作者招聘
量子位· 2025-12-15 16:05
公司概况与行业地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在AI及前沿科技新媒体领域处于行业TOP1地位[12] - 截至2025年,公司在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量200万以上[12] 招聘岗位与方向 - 公司开放三大方向的岗位招聘:AI产业方向、AI财经商业方向、AI产品方向[2][6] - 招聘面向社招和校招,社招覆盖编辑、主笔、主编各个层级,校招面向应届毕业生并接受实习转正[4][6] - 工作地点位于北京中关村[2] AI产业方向岗位详情 - 岗位职责包括跟进AI基建层新进展,涵盖芯片、AI Infra、云计算领域及核心玩家动态[5][6] - 职责涉及对前沿论文、开源社区及技术大会报告进行大众化解读[6] - 职责还包括参与核心采访,对话产业专家并撰写AI云落地案例[7] - 任职要求对芯片、GPU、NPU、服务器、模型训练架构、云计算有基本理解[11] - 要求熟悉AI行业供应链与生态,并能将复杂技术内容结构化表达,有技术背景者优先[11] AI财经商业方向岗位详情 - 岗位职责聚焦创投、AI创业公司、上市公司、商业模式及产业链资本动向[11] - 职责包括产出创投融资、招股书财报解析、公司战略分析等稿件[11] - 职责涉及访谈对话投资人、创业者及产业分析人士[11] - 任职要求对数据敏感,对财报、股权结构、战略规划感兴趣[11] - 要求逻辑结构强,对商业叙事敏感,并热爱对话采访[11] AI产品方向岗位详情 - 岗位职责关注AI在终端的落地,包括软件应用产品及硬件方向[11] - 职责包括撰写AI应用产品深度评测,跟踪多终端新品发布[11] - 职责涉及对话访谈AI应用创业者、产品专家及终端技术专家[11] - 任职要求对智能硬件、AI终端趋势敏锐,是重度AI产品体验人士[11] - 要求熟悉各大终端厂商业态及体验方法论,并具备强逻辑和结构化表达能力[11] 加入公司的优势 - 员工可第一时间接触AI领域最新技术和产品,构建完整的AI认知体系[6] - 员工可将各种AI新工具应用于工作,提升效率和创造力[6] - 员工可通过撰写独家原创内容建立个人知名度,成为AI领域意见领袖[6] - 员工可与AI领域大咖零距离接触,参与重要科技活动以拓展行业人脉[6] - 应届新人可获得主编级编辑的一对一指导[6] - 公司提供扁平、简单、开放、多劳多得的团队氛围[6] - 公司提供行业TOP薪资待遇及包含五险一金、餐补、绩效奖金在内的丰厚福利[6] 岗位通用能力要求 - 主编职位需具备选题和带队能力及经验[6] - 主笔职位需具备原创深度稿件能力[6] - 编辑职位需热爱表达,擅长挖掘信息并用通俗语言解读AI进展[6]
Minion Skills: Claude Skills的开源实现
量子位· 2025-12-15 16:05
文章核心观点 - Claude推出的Skills系统通过动态加载专业技能,解决了AI Agent上下文窗口有限性与能力需求无限性之间的核心矛盾,其设计理念是让AI像人类专家一样在需要时查阅手册而非记忆所有知识[2][3][4] - 作者在Minion框架中实现了该系统的完整开源版本,旨在打破闭源生态限制,提供LLM无关性、高度可定制性,并推动社区贡献以构建开放的AI Agent技能生态[15][20] Skills系统解决的问题与核心理念 - 传统AI Agent将所有工具和指令塞进系统提示词,导致上下文高达50K+ tokens,造成高延迟、高成本和低效率,而用户通常只需其中一小部分能力[2] - Skills系统的核心理念是模仿人类专家,让AI Agent在识别用户需求后动态加载特定专业技能指令,而非预先加载全部知识[3][4] Minion开源实现的技术架构 - **Skill定义**:每个技能是一个包含SKILL.md文件的目录,文件采用YAML frontmatter加Markdown body的格式,例如定义名为“pdf”的PDF处理技能[5][6] - **智能发现与加载**:Skill Loader在多个路径(如`.claude/skills`和`.minion/skills`)搜索技能,支持项目级和用户级分层,并遵循项目级覆盖用户级的优先级机制[6] - **注册与执行**:SkillRegistry负责技能的注册与快速查找,Skill Tool作为执行入口,动态加载并执行专业技能[6][7] 性能优势与实际应用场景 - **性能对比**:与传统方式相比,Skills方式将基础上下文从50K tokens降至10K tokens;处理PDF任务时,上下文仅为10K + 3K tokens,而非传统的50K tokens,从而降低延迟并提升任务质量[9] - **应用场景**: - 处理PDF财务报告:Agent识别需求后加载PDF技能,使用pypdf2和tabula-py等库提取文本和表格数据[9] - 批量处理Excel文件:Agent加载Excel技能,利用pandas和openpyxl批量读取、合并文件并生成统计报告[9] 设计亮点与未来方向 - **声明式定义与资源绑定**:技能通过易读写的Markdown定义,便于非技术人员维护;技能可绑定参考资料、脚本等资源[10][12] - **版本与来源追踪**:Skill数据类记录名称、描述、路径、许可证等信息,便于管理[12] - **未来方向**: - 构建技能市场,供开发者发布和安装专业技能(如`data-science-toolkit`)[12] - 实现智能推荐,根据用户请求和历史自动匹配并预加载相关技能[13] - 支持技能组合,让多个技能(如pdf、xlsx、data-visualization)协同完成复杂任务[14] - 开发自学习技能,使Agent能从成功任务中自动提取模式并生成可复用的新技能[17] 开源实现的动机与社区价值 - 实现动机包括确保LLM无关性(支持Claude、GPT-4及开源模型)、允许深度定制、鼓励社区贡献形成技能生态,以及通过实践深入理解架构设计[15] - 作者提供了视频演示(如PDF摘要提取、PPTX处理)和GitHub仓库链接,邀请社区试用和贡献,共同构建开放智能的AI Agent生态[18][21][23]
昆仑万维方汉:通用Agent是伪命题,AI Office仍有存在空间丨MEET2026
量子位· 2025-12-15 13:57
文章核心观点 - AI技术正经历从通用大模型到可执行智能体的拐点,其底层动力是推理能力提升和长思维链成熟后,“过程”开始被批量学习与调用 [1][3] - 智能体(Agent)的本质并非通用人工智能(AGI),而是一种可验证过程的自动化系统,擅长将已被人类验证过的流程规模化复制,但不擅长创造新范式 [2][12][16] - 智能体将最先落地于流程稳定、结果可验证的AI Office场景,并最终重塑公司组织,使人类从重复执行者转变为过程的架构者 [5][12][28] 昆仑万维公司介绍与业务 - 公司成立于2008年,2015年上市,业务覆盖全球100多个国家和地区,全球月活用户近4亿 [8] - 2024年前三季度公司营收58亿,其中海外收入占比高达93% [8] - 公司自2020年开始AI业务,2022年12月发布中国首个开源的13B中文预训练大模型,2024年5月推出Skywork Super Agents产品 [8] - 公司AI音乐Mureka、Skywork Super Agents、AI社交Linky在海外已产生实际收入并高速成长 [11] Skywork Super Agents产品特性 - 产品形态为从通用到专业的智能体,包括五个专家Agent和一个通用Agent [11][12] - 其PPT模式可在5分钟内生成30页PPT,该模式占当前日活跃用户(DAU)的40%,是用户使用量和好评量双排名第一的功能 [11][12] - 产品具备强大的多模态输出能力,可一键生成Word、PPT、Excel、播客、视频、小程序等内容,并支持上传多种格式文件、录音、网址进行内容生成 [13] - 产品所有内容附带清晰可追溯的参考文献,旨在彻底解决AI幻觉问题 [13] - 自2024年5月22日发布后,产品在下半年进行了紧密迭代,不断增加智能体种类并升级功能 [15] 对智能体(Agent)的行业认知 - 技术拐点出现:大模型完成了从“背答案”到“背过程”的关键跃迁,以ChatGPT为起点,到DeepSeek等模型通过更高效、更长推理的方式,实现了过程的泛化 [5][18] - 智能体大行其道的根本逻辑在于“过程可学习”实现了大规模的工业化和产业化 [20] - 智能体擅长数学、代码和结构化决策,但不擅长创新、范式突破和新框架 [12][16][19] 智能体的落地场景与挑战 - **首要落地场景**:AI Office,因其流程稳定、跨行业使用、结果可验证 [12][21] - **垂类场景挑战**:医疗、金融、建筑、法律、制造等行业缺乏高质量的过程数据集,这是阻碍智能体在这些领域应用的关键问题 [21][24] - **类比历史**:智能体的发展类似PC操作系统,通用智能体可能是一个伪命题,而像AI Office这样的通用产品以及各行业的专业软件将共存 [25] 通用智能体的渠道竞争格局 - **操作系统与硬件**:对于手机上的通用智能体,只有硬件手机厂商才能决定其设备上可以安装什么,其他智能体厂商不具备此能力 [12][26] - **浏览器**:被视为相对公平的渠道,因为全球主要浏览器(如Chrome、Firefox、Edge、Opera)数量有限且开放插件生态 [26] - **办公软件**:如飞书、钉钉、WPS、Office是重要入口,但办公软件需求是长尾市场,仍为第三方软件留有空间 [26] - **即时通讯**:由于社交网络效应,垄断性更强,作为通用智能体入口,其他厂商难以介入 [27] - **搜索引擎**:大模型聊天机器人(如ChatGPT、豆包、千问)本质上是分食传统搜索引擎市场,而搜索引擎在每个国家通常只会有1到2个胜利者 [27] 智能体时代对组织与人类角色的影响 - **组织重塑**:公司内部的流程属于过程数据,只要可验证就可以被智能体自动化,每个岗位将变成智能体的执行上下文 [12][28] - **角色转变**:重复操作的岗位将消失,人类员工将转变为“过程架构师”或“过程设计者”,负责维护旧流程和创造新流程 [12][28][31] - **类比黑灯工厂**:如同黑灯工厂的员工负责制造流程的维护与迭代,未来人类将成为智能体流程的维护者和创造者 [28][29]
马斯克猛猛带货太空数据中心!“能耗比地球香太多”
量子位· 2025-12-15 13:57
文章核心观点 - 太空数据中心正成为AI基础设施发展的新前沿和竞争焦点,其核心逻辑在于利用太空近乎无限的太阳能和极寒环境,从根本上解决地面数据中心面临的能源短缺与散热瓶颈问题,从而支撑未来AI算力的指数级增长 [1][2][9][12] 硅谷科技巨头与初创公司的布局与观点 - **马斯克/SpaceX**:明确表示SpaceX未来将在太空部署数据中心,认为从第一性原理出发,AI发展的天花板是能源问题,而太空提供了终极解决方案 [3][4][20][22] - **马斯克的观点**:地球只接收到太阳能量的20亿分之一,太空能提供近乎免费的电力与冷却资源,未来4~5年内,在太空部署和运行大规模AI系统的成本可能比在地球更具成本效益 [7][8][23][27] - **初创公司Starcloud**:已成功发射搭载英伟达H100 GPU的试验卫星Starcloud-1,并完成了人类首次在太空训练大语言模型的实验,其预计太空数据中心的能源成本仅为陆基方案的1/10 [25][38] - **谷歌**:正在推进名为“Project Suncatcher”的计划,旨在构建由搭载张量处理单元(TPU)的太阳能卫星组成的星座,计划于2027年发射两颗原型卫星进行测试 [41][42][43] - **亚马逊贝佐斯**:认为将数据中心转移到轨道是合理的,并预测其成本将在20年或更短时间内超越地面AI基础设施 [46] - **谷歌前CEO施密特**:因对太空数据中心感兴趣而收购了太空科技公司Relativity Space [47] - **行业共识**:AI的问题正从算法问题转变为能源与物理空间问题,太空被视为解决方案 [48][49] 太空数据中心的核心优势 - **能源优势**:太空没有昼夜交替和天气影响,太阳能板可实现全天候、全时段供电,能源丰富且稳定 [24][25] - **冷却优势**:太空平均气温约-270°C,可利用辐射冷却高效处理GPU运行产生的热量,无需庞大水冷或风冷系统 [25] - **成本趋势**:随着太空发射技术成熟,发射成本持续下降,目前SpaceX猎鹰重型火箭发射成本约每公斤1500美元,未来几年使用星舰发射成本可能降至每公斤100美元,为太空数据中心商业化提供可能 [28][29][30] 地面数据中心面临的挑战 - **电力短缺**:摩根士丹利报告指出,未来几年由于AI爆炸式增长,美国数据中心电力需求可能会短缺20% [33] - **供应风险**:美国能源部警告,若无新的电力来源,到2030年电力供应与数据中心需求的不匹配可能导致更多停电 [34] - **社会与监管压力**:数据中心导致的电力需求激增可能引发公众不满和监管压力 [35] - **替代方案的吸引力**:太空数据中心提供了不受地域性电力短缺、环境争议和漫长审批流程束缚的可能性,能以更敏捷、可持续的方式支撑未来算力需求 [36] 中国在太空数据中心的布局 - **官方推进会**:2024年11月27日,北京市科学技术委员会、中关村科技园区管理委员会等组织在京举办了“智绘星空 胜算在天”太空数据中心建设工作推进会 [51] - **发展规划**:北京星辰未来空间技术研究院院长张善从介绍了三阶段建设计划 [54] - **2025~2027年**:突破关键技术,研制试验星,建设一期算力星座,计划总功率达200KW、算力规模达1000POPS,实现“天数天算”目标 - **2028~2030年**:突破在轨组装建造等关键技术,降低成本,建设二期算力星座,实现“地数天算”目标 - **2031~2035年**:卫星大规模批量生产组网,建成大规模太空数据中心,支持“天基主算”
苏州大学首篇数学四大刊!解决了40年未决的丢番图逼近问题
量子位· 2025-12-15 12:04
研究成果概述 - 苏州大学张涵副教授及其合作者Timothée Bénard与何伟鲲的研究论文《Khintchine dichotomy for self-similar measures》被数学顶级期刊《Journal of the American Mathematical Society》录用,这是苏州大学的首篇数学四大刊成果[1] - 数学四大刊(《数学年刊》《数学学报》《数学新进展》《美国数学杂志》)是国际数学界公认的顶级期刊,每年中国研究机构入选论文通常不超过10篇[3] 理论突破与核心内容 - 研究核心是将描述有理数逼近实数规律的**辛钦定理**,从经典的**勒贝格测度**推广到了**所有自相似测度**上[4][12][13] - 辛钦定理在数论上量化了用有理数逼近实数(如π)的可能性和效率,其判定规则取决于特定逼近函数ψ的求和是否发散[10][11] - 自相似测度与均匀的勒贝格测度不同,其局部与整体的分布规律相似,测度质量集中在自相似集合的关键部分,广泛存在于分形几何和动力系统领域[13][14][16] 关键理论与证明 - **定理A**:直接确立了自相似测度下的辛钦二分法,其形式与经典定理一致,即测度值取决于ψ(q)求和的敛散性[17][18] - **定理B**:证明了自相似测度在扩展变换下的**有效等分布**,并给出了误差估计,表明测度会随变换推进越来越均匀地分布在空间里[17][19] - **定理C**:通过研究特定随机游走的等分布特性,为定理A和B提供了基础,阐明了“测度如何随变换/步数均匀化”的规律[17][21][22][23] 解决的问题与学科意义 - 该研究彻底解决了1984年数学家Mahler提出的**康托尔三分集上的丢番图逼近问题**,明确了分形上的无理数能被有理数有效逼近,且其规律与普通线段完全一致,同样由ψ函数的求和敛散性决定[24][25][26] - 此项成果打通了**齐次动力系统、分形几何、数论**三大领域的研究路径,为后续交叉学科研究提供了重要借鉴[27] 作者背景 - **Timothée Bénard**:法国国家科学研究中心(CNRS)、巴黎北索邦大学(LAGA)研究员,研究兴趣包括李群及其离散子群商群上的随机游走,涉及概率论、动力系统、调和分析和李群理论[28][29] - **何伟鲲**:2017年博士毕业于巴黎第十一大学,曾在耶路撒冷希伯来大学与韩国高等研究院从事博士后研究,2022年入职中国科学院数学与系统科学研究院任副研究员,研究兴趣包含齐次动力系统、分形几何、几何[30][31][32] - **张涵**:博士毕业于俄亥俄州立大学,后在清华大学进行博士后研究,2023年10月入职苏州大学,被聘为校优秀青年学者、特聘副教授,研究方向为齐性动力系统及其在数论中的应用[34][35]
何恺明组三位本科生领衔!持续聚焦Flow模型,突破归一化流生成效率瓶颈
量子位· 2025-12-15 12:04
论文核心创新 - 提出名为“双向归一化流”(BiFlow)的新框架,通过解耦前向与逆向过程,打破了传统归一化流(NFs)生成模型效率低下的问题[4] - 核心创新在于打破了“逆向过程必须是前向过程的精确逆运算”这一传统规则,允许逆向模型使用任意架构实现并行化和高效计算[11][14] - 该框架由何恺明团队的三位本科生一作领衔完成,他们分别来自清华姚班和MIT[5] 传统方法的局限与BiFlow的解决方案 - 传统归一化流模型因要求逆向过程是前向过程的精确逆运算,导致两大问题:模型设计受限(无法使用视觉Transformer等通用架构)和推理速度慢(无法并行加速)[12] - BiFlow的解决方案是引入一个可学习的独立逆向模型来近似前向模型的逆映射,从而解除架构约束[13] - 逆向模型可使用非因果的双向Transformer等架构,实现单次前向传递直接从噪声生成图像,无需逐步生成[14][15] 关键技术贡献 - **隐藏层对齐**:提出新的损失函数策略,利用前向过程的完整中间状态轨迹作为监督信号,通过可学习的投影头将逆向模型的中间状态与前向状态对齐,防止模型跑偏[17][18] - **学习去噪**:将去噪步骤直接整合进逆向模型的额外模块中,实现端到端的从噪声到清晰数据的映射,消除了传统方法(如TARFlow)推理时额外的去噪计算开销[20][21] - **训练时无分类器引导**:在训练阶段就引入无分类器引导(CFG),让模型学习以CFG比例为条件进行生成,避免了推理时计算两次前向传播的成本,保持了单步生成(1-NFE)的高效性[22][23] 性能表现 - **生成质量**:在ImageNet 256×256数据集上,BiFlow-B/2模型取得了2.39的FID分数,刷新了目前基于归一化流方法的SOTA(State of the Art)[24] - **推理速度**:相比于基线方法(改进版TARFlow),BiFlow的采样速度提升了两个数量级,在TPU上快697倍[26] - **模型效率**:BiFlow-B/2模型参数量为133M,仅需1次网络函数评估(NFE)即可达到上述性能,在参数量和计算效率上具有优势[25] 扩展应用 - 凭借其双向映射特性,BiFlow无需额外训练即可实现图像修复和类别编辑两类图像编辑任务[28] 研究团队背景 - 论文三位一作均为本科生,其中**陆伊炀**为清华姚班大二学生,在MIT CSAIL实习,导师为何恺明,曾是2022年全国中学生物理竞赛金牌得主[29][31] - **Qiao Sun**为MIT大二本科生,是何恺明课题组的UROP学生,是2023年国际数学奥林匹克竞赛(IMO)金牌得主[31][33] - **王衔邦**今年刚从人大附中毕业进入MIT,导师为何恺明,是2024年IMO金牌得主,并曾获全国信息学奥林匹克竞赛银牌[34][36]
低调霸榜全球最难SQL榜单超两月,国产AI这次选择高调开源!
量子位· 2025-12-14 15:12
核心观点 - 蚂蚁数科在AI数据分析领域取得重大突破,其Agentar-SQL系列在权威BIRD-Bench榜单上以执行准确率81.67%和执行效率77%的成绩获得双料第一,超越了谷歌、亚马逊等国际巨头,并宣布将关键技术开源 [1][2][4][5] - 公司选择了一条“非共识”但价值巨大的AI发展路径:从数据门槛最高、合规最严的金融“深水区”切入,通过解决极端复杂场景的问题,锤炼出可迁移的产业AI能力,并已成功外溢至交通、能源等其他民生领域 [8][11][13][27][38] - 公司不仅在技术上领先,还创新性地采用“按效果付费”的商业模式,并构建强大的合作伙伴生态,共同推动产业AI的规模化落地,其方案已获得国内外市场的广泛认可 [39][42][44][48][49] 技术成就与开源 - **登顶权威榜单**:2025年9月,蚂蚁数科的Agentar-Scale-SQL模型在全球最具权威性的NL2SQL评测基准BIRD-Bench上,以**执行准确率81.67%** 和**执行效率77%** 的成绩获得双料第一 [5] - **技术开源**:公司正式宣布开源其数据智能体关键技术——Agentar-SQL系列,包含实时文本转SQL框架的全套论文、代码、模型和使用指南,后续还将开源数据库理解与挖掘等全链路数据能力 [4] - **解决核心挑战**:技术旨在解决自然语言转SQL在实际落地中的四大严峻挑战:理解模糊口语、注入行业知识、解析复杂数据库结构、生成准确复杂SQL [6] - **实际应用效果**:在某头部城商行试运营期间,其Agentar SQL多个工具的平均查询准确率**超过92%**,较传统查询方案提升**超过3倍** [7] 战略路径:从金融深水区切入 - **战略选择**:在2024年初“百模大战”时,公司未追逐通用榜单或聊天机器人,而是选择切入**金融领域**这一AI落地的“深水区”,直面高风险、高投入、长回报周期的挑战 [12][13][14] - **金融场景的复杂性**:金融场景对AI的挑战体现在三个维度:数据高度敏感且孤岛化、业务逻辑极其严谨、合规要求近乎苛刻(要求可解释、可审计、可回溯) [15][19] - **战略成果**:该战略取得成功,公司服务已覆盖**100%的国有股份制银行**以及**超过60%的地方性商业银行** [18] - **行业认可**:公司已跻身IDC《中国智能体开发平台2025年厂商评估》的**领导者象限**,处于市场份额和技术实力的第一梯队 [20] 金融场景应用案例 - **宁波银行智能化决策系统**:通过“规划-检索-推理”智能机制,打破知识孤岛,将复杂问题回答准确率从**68%跃升至91%**,响应速度进入百毫秒级,并实现AI决策过程的可解释 [22][23][24] - **上海银行AI手机银行**:以“对话即服务”为核心,用户通过自然语言交互即可办理转账、理财咨询等业务,实现了从“人找服务”到“服务找人”的体验重构,并具备千人千面推荐与适老化设计 [25][26] 能力外溢与产业级应用 - **方法论迁移**:在金融领域验证的成功实践,积累了可迁移的产业AI方法论,并延伸至更多民生领域 [27] - **公共交通案例(南京公交)**:与南京公交联合打造“小蓝鲸”智能体,将金融领域验证的“规划-检索-推理”逻辑应用于城市交通系统,实现从经验决策到智能规划的升级 [28][30][35] - 在AI建议下开通的210路公交车,单日最高客流达**2168人次**,老年卡使用占比近**50%** [32] - 类似由AI建议开通的公交线路在南京已有**30多个**,并新增了**84个招呼站** [33] - **能源领域应用**:其EnergyTS能源电力时序大模型能精准预测发电量和市场供需,将投前决策的人工测算时间从**2-3天缩短为十余分钟**,决策效率提升**超过60倍**,已助力协鑫能科、霍普等企业 [36][37] 商业模式与生态建设 - **创新付费模式**:采用“**按效果付费**”的模式,降低客户(尤其是中小机构)应用AI的门槛和风险,倒逼技术提供商深入业务一线,将技术转化为可量化的商业价值 [39][42][43] - **生态合作规模**:截至今年,已与**300家合作伙伴**建立深度合作,共同服务超**13000家终端客户** [45] - **生态赋能计划**:升级“星澜计划”,从技术赋能、运营支持、商机共享、资金扶持四个维度提升伙伴能力 [45] - **合作伙伴收益**:有合作伙伴分享,其**30%的营收**来自与蚂蚁数科的合作业务 [47] - **全球化进展**:技术方案已服务南洋商业银行、渣打银行等超**百家海外金融机构**,并于2025年10月入选香港金融管理局生成式AI沙盒项目 [48][49]
量子位编辑作者招聘
量子位· 2025-12-14 15:12
公司概况与行业地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年积累[1] - 公司在AI及前沿科技行业是TOP1新媒体,在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量200万+[12] 招聘岗位方向 - AI产业方向:关注基建层创新,包含芯片、AI Infra、云计算[6] - AI财经方向:关注AI领域创投和财报,跟踪产业链资本动向[6] - AI产品方向:关注AI在应用和硬件终端方向的进展[6] 岗位职责详情 - AI产业方向岗位职责:跟进AI基建层新进展,包括芯片、AI Infra、云计算领域新进展及核心玩家动态[6];做前沿论文、开源社区、技术大会技术报告大众化解读[6];参与核心采访,对话产业专家、技术大牛、撰写AI云落地案例[7] - AI财经方向岗位职责:聚焦创投、AI创业公司、上市公司、商业模式、产业链资本动向[11];产出创投融资、招股书财报解析、公司战略分析等稿件[11];访谈对话投资人、创业者、产业分析人士[11] - AI产品方向岗位职责:关注AI在终端的落地,包括软件应用产品、硬件方向落地[11];撰写AI应用产品深度评测、跟踪多终端新品发布(手机、PC、XR、车机等)[11];对话访谈AI应用创业者、产品专家、终端技术专家[11] 任职要求 - AI产业方向任职要求:对芯片、GPU、NPU、服务器、模型训练架构、云计算等有基本理解[11];熟悉AI行业的供应链与生态(训练–推理、算力–成本、云–芯片关系)[11];能把复杂技术内容结构化表达[11];有技术背景、理工或CS/EE方向优先[11] - AI财经方向任职要求:对数据敏感,对财报、股权结构、战略规划感兴趣[11];逻辑结构强,对商业叙事敏感[11];热爱对话采访,社交型人格[11] - AI产品方向任职要求:对智能硬件、AI终端趋势敏锐,重度AI产品体验人士[11];熟悉各大终端厂商业态、体验方法论[11];有强逻辑、体验表达和结构化能力[11] 岗位层级与类型 - 社招岗位覆盖编辑、主笔、主编各个层级,按能力匹配岗位[6] - 校招面向应届毕业生,接受实习且可转正[6] - 主编需具备选题和带队能力及经验[6] - 主笔需具备原创深度稿件能力[6] - 编辑需热爱表达,喜欢挖掘信息,能够用大白话让所有人看懂AI新进展[6] 加入公司的优势 - 站在AI浪潮之巅:第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知体系[6] - 玩转AI新工具:将各种AI新技术、新工具应用于工作,提升工作效率和创造力[6] - 打造个人影响力:通过撰写独家原创内容,建立个人知名度,成为AI领域的意见领袖[6] - 拓展行业人脉:与AI领域大咖零距离接触,参与重要科技活动和发布会,拓展行业视野[6] - 获得专业指导:应届新人会由主编级编辑出任mentor,提供一对一指导,帮助更快进步获得成长[6] - 加入活力团队:与一群志同道合的年轻人一起工作,享受扁平、简单、开放、多劳多得能者上位的团队氛围[6] - 获得丰厚回报:行业TOP薪资待遇,五险一金、餐补、项目绩效、商务绩效、加班补助等福利一应俱全[6]