Workflow
强化学习
icon
搜索文档
红杉资本:这就是AGI
36氪· 2026-01-20 16:20
文章核心观点 - 2026年将成为通用人工智能(AGI)的元年,其核心标志是“长时程智能体”的成熟,标志着AI从对话者演变为能自主解决复杂问题的执行者[1] - 商业范式将从“销售软件”转向“销售工作成果”,智能体将成为全天候工作的“数字员工”,彻底重塑生产力边界[1][2] - 智能体处理复杂任务的能力正以每7个月翻一番的速度指数级增长[2] 功能性定义:AGI即“自行解决问题”的能力 - 红杉资本提出了一个务实的功能性AGI定义:即“自行解决问题的能力”[3] - 具备此能力的AI包含三个核心要素:基线知识(预训练)、推理能力(推理时计算)以及迭代能力(长时程智能体)[3] - 迭代能力是2024年以来的最新突破,使AI能像人类一样在数小时内自主工作、修正错误并决定下一步行动[3] 从指令到自主:智能体的工作闭环 - 长时程智能体能在模糊环境中通过建立假设、测试、试错并调整方向来达成目标,这是其核心特征[5] - 以招聘场景为例,智能体能在31分钟内完成人类专家的心理循环,包括搜索竞对公司职位、筛选社交媒体活跃者、分析潜在离职信号并最终起草个性化联系邮件[4][5] 技术路径:强化学习与代理架构的双重驱动 - 实现长时程智能体的两种有效且可扩展的技术路径是强化学习与代理架构[6] - 强化学习主要由研究实验室主导,通过训练教导模型长时间保持专注,已在多智能体系统和工具使用可靠性方面取得显著进展[6] - 代理架构属于应用层,开发者通过设计特定脚手架来规避模型局限,市场好评产品如Manus、Claude Code和Factory's Droids均得益于此[6] - 根据METR的追踪,智能体能力呈指数级增长,预计到2028年将能可靠完成人类专家一整天的工作量,到2034年将能完成一整年的工作量[6] 商业变革:从软件到“数字员工” - 检验AGI的试金石是能否雇佣一个智能体,目前从医药、法律到网络安全等各行各业的专用智能体正在迅速涌现[7] - 对创业者而言,这意味着巨大的范式转移:2023-2024年的AI应用多为“对话者”,而2026年及以后的应用将是“执行者”,使得“销售工作”成为可能[7] - 创始人需要重新思考哪些持续关注的任务可被智能体接管,并针对“结果”而非“工具”进行定价和包装[7] - 虽然当前智能体可能只能可靠工作约30分钟,但其能力将快速增长,最终能处理相当于人类一世纪工作量的任务,使曾经宏大的路线图变得可行[7]
未知机构:弘则研究科技国内外AI应用冰火两重天模型和应用的矛盾加剧发布于2026年-20260120
未知机构· 2026-01-20 10:40
行业与公司 * 行业:全球人工智能产业,涵盖上游算力、中游模型与下游应用[1] * 公司:涉及海内外多家科技公司,包括Anthropic、OpenAI、Google、字节跳动、腾讯、阿里巴巴、美图等[1][3][5][6][7] 宏观趋势与市场分化 * 中美AI应用市场呈现“冰火两重天”格局[1] * 美股软件股自2026年1月以来大幅下跌,主要原因是Anthropic发布具备全自动工作流能力的Agent产品,引发市场对软件开发成本和功能价值被颠覆的担忧[1] * 中国AI应用生态更偏向“闭环整合”,头部厂商依托自有流量与生态快速落地Agent功能[2] * 自2025年8月起,上游算力(芯片、设备、存储)持续走强,下游应用侧(互联网、软件公司)表现疲软[2] * 市场对短期算力资本开支确定性高,但担忧中长期需求可持续性[3] 技术演进与模型格局 * 基础模型进入线性增长阶段,未出现突破性跃迁,整体能力稳步提升[3][4] * 第一梯队模型包括Anthropic、OpenAI、Gemini[3] * 第二梯队模型包括Grok、智谱、Kimi[3] * 国内通义千问版本滞后,Deepseek V4有望冲击第一梯队[3] * 多模态成为关键突破点,例如Google的NanoBanana等图像编辑模型具备视觉交互能力,显著提升Agent在浏览器自动化、GUI操作、机器人、医疗影像等场景的连续任务执行能力[4] * 垂直模型转向“后训练+强化学习”模式,不再依赖RAG外挂检索,而是将专家思维链内化至模型,实现类人推理[4] * 医疗、金融、编程等领域需大量专家标注数据支撑[5] 国内外AI应用落地对比 * **国内(闭环生态驱动)**: * 字节跳动:豆包手机采用“OS+APP”模式,通过读屏理解操作APP,但效率偏低[5] * 腾讯:开放小程序生态,将小程序转化为Agent(“超级应用+Agent”)[5] * 阿里巴巴:通义千问新版本深度整合阿里生态(飞猪、饿了么等),实现无需跳转的闭环服务,被视为首个真正落地的C端Agent,显著提升其AI叙事确定性[5] * **海外(平台+第三方生态)**: * Anthropic:聚焦编程工作流,实现“仅需产品设计即可自动生成完整产品”,颠覆传统软件开发逻辑[5] * OpenAI /JIMI:仍以Chatbot为主,侧重一次性输出,缺乏任务规划能力[5] * Google:拥有自有模型,推出Sketch(对标Figma)、Opa Notebook等工具,但偏C端,专业场景影响有限[5] 投资逻辑与标的推荐 * **上游(受益明确)**:存储(DRAM/HBM/SSD)、半导体设备、电力设备——受益于AI推理需求迁移与台积电扩产(2026年CAPEX预计增长30%-40%)[5] * **平台型公司(生态+模型+流量)**: * 海外:Google[6] * 国内:阿里巴巴(已验证闭环)、腾讯(待观察)、快手[6][7] * **终端场景类(AI赋能而非替代)**:推荐美图、Roblox、Reddit[7] * **ToB工具类(存在错杀机会)**:Adobe、Figma等正与大模型公司合作转型,需观察2026年Q1产品落地与业绩兑现[7] 核心判断与展望 * 2026年是“第三个Agent元年”,但成败未定,市场给予极高溢价[7] * Agent的核心竞争力从“通用对话”转向“自动化工作流执行”,尤其在编程、医疗等垂直领域[7] * 国内AI应用因生态闭环+快速迭代,在C端落地速度领先;海外则在B端工作流自动化上更具颠覆性[7] * 存储需求正从训练侧向推理侧迁移,SSD作为“个人记忆体”将成为下一代Agent基础设施[7] * 总结:AI产业正经历从“模型竞赛”到“应用落地”的关键转折,中美路径分化明显,技术突破(多模态、强化学习)与生态整合能力成为胜负手[7]
国内外AI应用冰火两重天-模型和应用的矛盾加剧
2026-01-20 09:50
行业与公司 * **行业**:半导体行业、人工智能(AI)行业 [1] * **公司**:台积电、Google、Anthropic、OpenAI、阿里巴巴、字节跳动、腾讯、美图、Roblox、Reddit、Figma、Adobe、帕拉蒂亚、第四范式 [1][2][4][12][13][15][16][21] 核心观点与论据 半导体行业趋势 * **台积电大幅上调资本支出**:对未来几年资本支出(CAPEX)增长预期达到30%至40%,为近年来最大上调,指引显示资本支出将达到500多亿美元,表明对未来两三年需求有较高信心,消除了短期内资本开支见顶的预期 [1][4] * **行业处于大扩产周期**:存储器价格上涨以及台积电扩产预期推动了半导体设备板块表现良好 [5] * **存储需求侧重点迁移**:存储需求正从训练侧向推理侧迁移,应用侧需要大量存储来调用上下文信息,这不仅体现在DRAM和HBM需求上,也反映在英伟达Roving架构中专门设计用于提高SSD与芯片共享速度的新接口,随着Agent市场发展,SSD需求将同步增长 [1][7][8] AI模型与技术进步 * **多模态模型实现质变**:以Google的NanoBanana为代表的多模态模型在2025年实现质变,从生成工具转变为真正生产力工具,大幅增加下游场景潜在可能性,例如编程中的浏览器自动化、GUI Agent读屏能力以及视频生成中的动作模仿 [1][6] * **多模态视觉模型提升环境理解**:使AI系统从“瞎子”变成能够“看见”外部世界,极大地拓展了下游应用可能性,特别是在机器人领域增强对外部环境理解能力,在医疗场景提升病例及影像读取能力,并增强了Agent执行连续任务的能力 [6][9] * **强化学习在垂直领域应用优势**:通过后训练和强化学习,将人类解决问题的思维方式嵌入模型,改变其参数,使其能像人类一样思考,这种方法对垂直场景的数据要求非常高,需要大量专家级数据标注,已成为发布智能代理(Agent)的一种普遍方式 [1][10][11] * **编程领域取得显著进步**:通过强化学习和后训练,编程Agent在2025年取得显著进步,实现了循环编程、自我调试和纠错等功能,并进入商业化普及阶段 [11] * **基础模型梯队格局**:全球最高水平的第一梯队是Anthropic、OpenAI和Gemini,第二梯队包括Grok、Gemini GML智谱产品以及kimi等 [6] 市场动态与竞争格局 * **中美AI应用市场表现分化**:中国市场的AI应用股票和美国以软件为代表的应用股票走势完全不同,美国市场中除了Google之外的大多数互联网公司和软件公司在8月份之后表现相对疲软,而上游公司则不断修正预期 [3] * **国内外市场关注点差异**:国内市场更关注C端发展,阿里、字节和腾讯主导前端流量竞争;海外市场则更关注To B业务发展 [1][12] * **国内AI生态特点**:国内市场具有生态闭环特点,模型与生态融合阻力较小,已基本完成底层联通,现在更多是如何将模型融入产品设计的问题 [12] * **国内巨头竞争策略差异**: * 字节通过豆包手机采用操作系统加APP模式,将所有AI功能集中于操作系统 [13] * 阿里的通义千问基于超级APP形式存在,后台接入自有生态(如飞猪、闪购),实现高颗粒度解析,每个小程序页面都能无缝跳转并嵌入回答内容中 [13] * 腾讯将小程序变成Agent,将所有AI功能下放给应用场景和小程序,实现链路连接 [13] * **国外主要AI公司现状**:OpenAI和Anthropic已成为百亿级别的公司,OpenAI在面向C端市场发力较少,Anthropic引起市场震动较大,目前美股平台公司中只有Google拥有自主模型 [15] * **美股软件板块下跌原因**:与OPS 4.5的发布有关,当Chatbot向Agent形态迁移时,Anthropic积累的全自动化工作流方式产生了更大影响,其Cloud Code和Cloud Coworker等新产品通过循环编程实现AI自行改正bug,大幅降低了软件开发成本并提高效率,从而引发市场震动 [17] 产品与投资 * **Anthropic产品创新**:Cloud Code和Cloud Coworker等产品通过循环编程实现AI自行改正bug,仅需人工进行产品设计,大幅降低了软件开发成本,并且能够模拟人眼进行界面交互,解决了后台无法执行工作的难题 [2][17][18] * **Google产品影响**:Google发布的自动生成节点编辑工具直接与Figma竞争,并对传统工作流工具如N8N产生重大影响,其推出的下游工具类产品主要面向C端或非专业用户 [16] * **阿里巴巴通义千问影响**:发布后将所有流量打包到同一个入口,整合自有流量,提高了产品解析能力,与竞品差别缩小,统一了流量入口并促进二线产品对头部业务的冲击,预计迭代速度会很快,对股价波动稳定性有积极影响 [14] * **投资标的建议**: * **平台类公司**:如Google、腾讯、阿里和快手,由于自有流量生态及自研模型能力,是较为明确的投资标的 [21] * **终端场景公司**:如美图、Roblox、Reddit等,受AI冲击较小,可通过Agent强化自身产品 [21] * **To B应用公司**:如Figma、Adobe等需要通过业绩证明自己不会被淘汰,而像帕拉蒂亚、第四范式这种专注垂直模型开发的公司相对受影响较小 [21] * **关注重点**:今年应重点关注各行业Agent的发展速度及落地效果 [21] 其他重要内容 行业挑战与观察点 * **存储器价格短期快速上涨**:因资源因素短期内快速上涨 [1][5] * **电力设备可能成为长期制约**:电力设备供给与产能问题可能成为长期制约因素 [1][5] * **下游厂商接受度是关键**:下游厂商对于存储涨价接受程度将在三四月份新品发布时成为关键观察点 [1][5] * **Agent层面进展**:去年(2025年)基础模型迭代没有显著跳跃式升级,但Agent层面通过强化学习取得重要进展,强化学习将知识库沉淀到模型中,使其具备类似肌肉记忆般规划工作流的能力,这一发展偏向垂直行业 [19][20] * **Anthropic潜力被低估**:Anthropic公司在Agent生态中的潜力被低估,其积累的模型和应用方式可能带来更大的颠覆性影响 [16]
CPU涨价与国产CPU近况更新
2026-01-20 09:50
纪要涉及的行业或公司 * **行业**:半导体行业,特别是CPU(中央处理器)、DRAM(动态随机存取存储器)、NAND闪存、AI处理器、服务器市场[1] * **公司**: * **国际**:英特尔(Intel)、AMD、台积电(TSMC)、高通(Qualcomm)[11][12][20] * **国内**:海思(HiSilicon)、海光(Hygon)、兆芯(Zhaoxin)、中芯国际(SMIC)[3][7][10][11] 核心观点与论据:CPU市场动态与价格趋势 * **CPU涨价现状与原因**: * **主要原因**:AI需求激增,挤占了HBM(高带宽存储器)产能,而HBM与DRAM生产密切相关,连带推高了DRAM和NAND闪存需求,进而影响了与这些产品共用部分设备和材料(如光刻胶、刻蚀机)的CPU产能[1][2] * **消费级CPU**:在2025年第三季度至第四季度期间调价约**7%至10%**[1][2] * **服务器CPU**:在2024年经历折扣较大的低谷期后,2025年因AI需求带动折扣减少,并于2026年初开始补涨,涨幅略低于10个百分点,主要集中在部分老制程产品[1][4][5] * **高端AI处理器**:新推出的最先进制程产品(如18nm)价格预计比之前最高端产品高出**18%至20%**[1][2] * **未来价格趋势**: * 2026年消费级和服务器级CPU预计延续去年约**10%** 的涨幅[1][6] * **驱动因素**:AI、PC市场需求增加,上游供应链(机箱电源、散热器等)成本上涨,以及厂商因建厂高成本和不确定性而扩产保守,加剧供需紧张[1][6] * **长期展望**:若AI需求持续增长,2027-2028年相关产品价格可能更高[1][6] * **产业链涨价传导顺序**:晶圆厂(如台积电在2025年已两次调价)先行涨价,随后传导至DRAM、NAND等上游供应链,再到封测厂,最后是散热器、电源等下游环节[15] 核心观点与论据:国产CPU发展现状与挑战 * **整体水平**:国产CPU整体仍处于 **“能用”** 水平,与国际领先产品(英特尔、AMD)存在显著差距[1][7][8] * **具体挑战**: * **生态系统兼容性差**:与国际主流操作系统(Windows、Linux、macOS)的兼容性差,导致性能和适配性不足[1][7] * **制程技术落后**:例如,中芯国际的N+2工艺与台积电的N6工艺相比仍有差距[7] * **迭代速度慢**:由于生态圈封闭且小众,整体性能提升有限[7] * **行业分散**:国内CPU厂商分散,重复投入资源,未能形成统一生态和规模效应[9] * **表现较好的厂商**: * **海思**:依托华为强大资源支持,基于ARM架构改进,与国际接轨[3][10] * **海光**:得益于友商授权和技术支持,能更快追赶国际水平[3][10] * **发展建议**:应集中资源扶持一家企业,通过规模效应降低成本,提高经济效益[1][9] 核心观点与论据:AI时代的技术与竞争格局 * **CPU在AI时代的作用**:主要负责提供大型IO以带动AI卡(GPU)并点亮操作系统,对核心性能及IO能力要求高[3][11] * **架构竞争(X86 vs ARM)**: * AI领域ARM服务器目前仅够用,尚未对X86形成显著威胁[11] * 强化学习等新兴应用将提升对高性能X86 CPU的需求[3][12] * **厂商竞争态势**: * **英特尔 vs AMD**:2026年英特尔在产品力上超出AMD,但AMD在GPU(MI350/380)方面发力,而英特尔缺乏对应产品[11] * **英特尔IDM模式潜力**:可承接台积电产能溢出的订单,但自建晶圆厂成本高[3][12] * **AI服务器配置趋势**: * CPU与GPU的比例预计不会发生显著变化,目前双路CPU搭配八卡GPU的配置已较普遍[13] * 终端用户更关注CPU性能(如更大的IO口、更强的大核心)的提升,而非数量增加[13][14] * AI推理端对CPU的需求在数量上不会显著增加,但需要性能更强的CPU[14] 其他重要内容:产品技术发展趋势 * **CPU核心数趋势**: * **消费级PC**:核心数将显著增加,例如从目前最多**16核**可能增至**30核甚至40核**[17] * **服务器**:将分化为**大P核(大核心)** 和**小核处理器**两条路线,小核处理器可能继续增加到**200-300个小核**以应对并发任务,而面向AI场景的大P核数目将稳定上涨[17][18] * **产品线分化**:英特尔与AMD可能会根据不同计算需求(如通用计算 vs AI场景)进行产品线分化[19] * **制程发展**:未来将沿两条路线并行,一是继续追求先进制程(如英特尔14nm、台积电N16),二是探索新的方法论和封装技术(如玻璃基板)以提升系统算力,因为制程迭代速度已减缓至三到四年[21][22]
红杉资本:2026将是AGI元年,编程智能体已经打响了第一枪!
华尔街见闻· 2026-01-19 19:41
文章核心观点 - 通用人工智能(AGI)已从概念变为现实,其功能性定义是“自行解决问题的能力”,2026年将是AGI元年 [1] - 以编程智能体为代表的长时程智能体已落地,标志着AI从“对话者”向能够实际交付工作的“执行者”转型 [1] - AI智能体的能力正以指数级速度增长,将彻底改变企业的人才结构、生产力边界以及商业和投资范式 [1][2][7] 功能性定义与核心特征 - AGI的功能性定义被界定为“自行解决问题的能力”,对于企业而言,AI能否完成任务比其实现方式更重要 [3] - 长时程智能体具备在模糊环境中通过建立假设、测试、试错并调整方向直至达成目标的核心能力 [4] - 智能体能够自主执行复杂任务闭环,例如在招聘场景中,可在31分钟内完成人类专家的心理循环,包括跨平台搜索、分析潜在离职信号并起草联系邮件 [3] 技术路径与能力增长 - 实现AGI跨越的两种有效且可扩展的技术路径是:由研究实验室主导的强化学习,以及在应用层通过设计特定脚手架来规避模型局限的代理架构 [5][6] - 智能体处理复杂任务的能力正以每7个月翻一番的速度呈指数级增长 [2] - 根据趋势推算,智能体在2028年将能可靠地完成人类专家需耗时一整天的工作,到2034年将能完成一整年的工作量 [6] - 最新的突破是迭代能力,即AI能够像人类一样在数小时内自主工作、修正错误并自主决定下一步行动 [5] 商业影响与范式转移 - 商业逻辑将发生根本性变化,从销售软件转向直接“销售工作成果”,未来的AI应用将作为“数字员工”或“同事”全天候并行工作 [1][7] - 创业者面临巨大范式转移,2026年及以后的应用将是“执行者”,这使得针对“结果”而非“工具”进行定价和包装成为可能 [7] - 从医药领域的OpenEvidence、法律领域的Harvey到网络安全领域的XBOW,各行各业的专用智能体正在迅速涌现 [7] - 曾经宏大的路线图(如交叉比对20万个临床试验数据或重构整个美国税法代码)因智能体能力的提升而变得切实可行 [7]
大模型听懂语音却变笨?港中深与微软联合解决语音大模型降智问题
新浪财经· 2026-01-19 13:48
行业核心痛点:语音大模型的模态推理鸿沟 - 当前语音大模型面临“模态推理鸿沟”,即当大语言模型接收语音输入时,其逻辑推理能力相比纯文本输入会显著衰退[3] - 行业主流的三段式“语音编码器+适配器+LLM”架构,在引入语音模态后出现了推理能力的断崖式下跌[8] - 此难题是OpenAI、Google、Meta等科技巨头共同试图跨越的技术天花板[3] 现有解决方案的缺陷 - 输入端强行对齐方法无法解决深层的“表征漂移”问题,语音激发的隐藏状态会随网络层数加深而偏离文本的思考轨迹[8] - 输出端通过监督微调或知识蒸馏的“死记硬背”方法属于离线策略,存在模仿静态数据分布、无法泛化到新任务等根本缺陷[8] 创新解决方案:TARS框架 - 香港中文大学(深圳)与微软团队联合提出TARS,这是一个基于强化学习的新对齐框架,旨在解决模态推理鸿沟[7] - 核心洞察是采用On-policy强化学习,让模型在“思考过程”中动态对齐文本的思维轨迹,而非对齐具体的输出字词[9] - 该框架包含三大关键创新:表征对齐、行为对齐、以及非对称奖励与模态归一化[11][12][13] TARS的技术创新细节 - 创新一“表征对齐”直接从模型内部入手,解决与“表征漂移”相关的鸿沟问题[11] - 创新二“行为对齐”在输出端引入了比监督微调更灵活的对齐标准[12] - 创新三包括“非对称奖励”和“模态特定归一化”,后者将语音与文本分支的奖励分开归一化,确保语音分支在困难任务下也能获得持续优化梯度[13][14] 实验验证与性能表现 - 实验在UnifiedQA数据集上训练,并在MMSU和OBQA两个高难度语音推理榜单上验证,基于Qwen2.5-Omni和Phi-4-MM架构[14] - 核心战绩显示,TARS成功将语音输入的推理表现100%恢复甚至超越了纯文本基座水平[7] - 具体数据:TARS在Phi-4-MM架构上实现了100.45%的MRR,在Qwen2.5-Omni架构上实现了98.89%的MRR[15] - 在Phi-4-MM的消融实验中,TARS的MRR达到100.28%,平均准确率在MMSU和OBQA上分别达到79.57%和83.56%[16] - 训练后,模型的文本准确率也同步提升,Qwen架构提升2.39%,Phi架构提升5.43%,证明语音模态学习能反哺增强文本推理能力[16] 行业意义与范式转变 - TARS的提出标志着语音大模型研究的一个转折点,证明了On-policy强化学习在解决模态对齐问题上优于传统的离线策略方法[17] - 其“表征+行为”的对齐策略,为消除模态推理鸿沟提供了有效路径[17] - 该研究证明语音大模型完全可以拥有和纯文本模型同等的推理能力,为打造高智商的全能型Omni模型提供了可行方案[17]
在硅谷大厂一路开挂,为啥最终放弃数百万美金年薪?
36氪· 2026-01-19 11:29
核心观点 - 访谈对象朱哲清(Bill)分享了其在Meta的快速晋升经历、斯坦福读博历程以及创业选择,核心观点在于通过选择高成长性项目、有效向上管理并结合对强化学习技术的深刻认知与热情,实现了职业与学业的双重突破,并最终投身于AI智能体创业,旨在利用工具调用技术解放重复性劳动 [1][4][54][57][115][120] 硅谷职场晋升与个人背景 - 朱哲清于1996年出生,在上海长大,高中后赴美留学,本科毕业于杜克大学计算机科学与金融专业,博士毕业于斯坦福大学强化学习专业 [3] - 其职业生涯全部在Meta度过,为期七年半,期间从E3晋升至E7 [4] - 在Meta期间,其团队从零开始搭建商业增长的AI部署,与产品团队共同将广告商增长六倍,为公司带来近10亿美元的营收 [6][7] - 晋升的关键在于选择并做好从0到1、对公司有战略意义且天花板高的项目,同时需要有效的向上管理,让高层看到成果 [10][11][12][13][16][17] - 在Meta的晋升速度(29岁升至E7)被认为是千分之一的概率 [9] 职场发展策略与认知 - 在大公司发展本质上是站位问题,需选择对公司未来发展至关重要的领域或产品线 [31] - 应避免长期从事重复性、无开创意义的工作,这类工作可替代性强,是危险信号 [32] - 对于技术人员,选择取决于专业认知与技术判断力,例如判断LLM或扩散模型中的有前景的技术路径 [39][40][41] - 公司最重要的三个方面是赚钱、用户增长和基础建设,工作若完全不涉及这些方面,天花板会很明显 [36][37] - 向上管理需明确对齐期望,定期用数据复盘,确保沟通无偏差并展示超额完成的结果 [45][46][47][48][49][50][51] 创业动机与公司现状 - 朱哲清于2024年10月底离开Meta创业,创立了Pokee AI,其创业动力源于对强化学习落地应用的长久热情以及认为该技术即将起飞的判断 [54][57][58][63] - 创业方向是打造以工具调用为核心的强化学习智能体,旨在覆盖整个互联网的工具,帮助企业和开发者完成复杂工作流 [4][115][120] - 其认知领先于市场,在2025年初Deepseek证实强化学习方向价值后,获得了大量投资人的关注 [64][65][66] - 离开Meta时其年薪总包约为200万美元 [121] - 目前创业团队有9人,其中5位是从Meta辞职加入的前同事,团队包括负责业务与市场拓展的人员以及工程师和研究员 [123][124] - 其瞄准的AI工作流自动化市场是一个千亿美元级别的市场,目标是用AI逐步接管大公司内部成千上万的重复性工作流程 [125][126] 对AI时代与个人发展的思考 - AI智能体的核心价值在于学会像人类一样调用工具,而非将所有能力内化于单一模型 [116][117][118] - AI的发展将把人类从重复劳动中解放出来,迫使人们思考并转向更有创造力、更高价值的工作 [127][128][129] - 在AI时代,个人的出路在于找到自己的天赋和热爱,利用AI辅助,在细分领域创造比原来好十倍、百倍的产品或服务 [130][131][134][135][136][137] - 当前的AI技术仍存在幻觉、执行复杂指令不准确等问题,距离能够自我设定目标并构成威胁还很远 [140][141] - 未来对大型模型的奖励机制可能需要政府或监管机构介入审查 [143][144][145] 个人经历与驱动力 - 在Meta工作同时攻读斯坦福博士的六年多时间里,每周工作时间超过100小时,牺牲了几乎所有个人生活,动力源于对强化学习落地应用的热爱与执着 [68][69][70][71][77][80][81][82] - 曾经历人生至暗时刻,包括2020年父亲重病需回国照料,同时面临职场晋升受挫(E5升E6失败)以及学业压力,一度感到绝望 [90][91][92][93][94][95][96] - 原生家庭经济不稳定,出国留学是经过精密计算(预算约100万人民币)的理性投资,这种没有退路的环境培养了他的责任感和破釜沉舟的决心 [99][100][101][102][103][104] - 性格从内向转变为外向的关键转折点,是高三时加入一个美国创业团队工作八个月的经历 [109][110][111][112] - 其技术热情与方向选择深受AlphaGo事件影响,并受到如强化学习之父Richard Sutton坚持研究等事迹的激励 [147][148][149][155][156][158]
大模型听懂语音却反而变笨?港中深与微软联合解决语音大模型降智问题
机器之心· 2026-01-17 11:24
行业核心问题:语音大模型的模态推理鸿沟 - 当前语音大模型面临“模态推理鸿沟”核心难题,即模型被赋予听觉后,逻辑推理能力会显著衰退[2] - 行业巨头如OpenAI、Google、Meta均面临此挑战,并将其定义为“Intelligence Gap”或“Multimodal Tax”[3] - 具体表现为:GPT-4o在纯文本任务准确率达92%,但在端到端语音模式下得分跌至66%,出现26%的巨大跌幅[3] 现有解决方案的缺陷 - 主流语音大模型采用“语音编码器+适配器+LLM”三段式架构,但引入语音模态后推理能力出现断崖式下跌[10] - 现有修补方法存在缺陷:输入端强行对齐无法解决深层的“表征漂移”问题[11] - 输出端通过监督微调或知识蒸馏的方法属于离线策略,存在“目标不可达”和“Exposure Bias”问题,导致模型容错性差[12][19] 创新解决方案:TARS框架 - 香港中文大学(深圳)与微软团队联合提出TARS,这是一个基于强化学习(具体采用GRPO)的全新对齐框架[7][13] - 核心创新在于不依赖死记硬背的监督微调,而是通过对齐“思维轨迹”来恢复推理表现[7] - 框架包含三大关键创新:表征对齐、行为对齐、以及非对称奖励与模态归一化[13] 技术细节:TARS的三大创新 - **创新一:表征对齐**:计算语音与文本输入下每一层隐藏状态的余弦相似度作为奖励,引导语音分支的思维路径紧跟文本轨迹[15][16] - **创新二:行为对齐**:利用外部Embedding模型判断语音推理与文本参考的语义一致性,允许措辞差异,解决了“目标不可达”问题[17][21] - **创新三:非对称奖励与模态归一化**:语音分支额外获得对齐奖励以追赶文本;采用模态特定归一化,保证语音分支在困难任务下也能获得持续优化梯度[22][23] 实验结果与性能表现 - 在MMSU和OBQA两个高难度语音推理榜单上验证,基于Qwen2.5-Omni和Phi-4-MM架构进行实验[25] - **核心战绩**:TARS在7B模型上达到了100.45%的模态恢复率,意味着语音推理能力不仅完全恢复,甚至略微超过了文本基座水平[26][33] - **性能对比**:TARS在Phi-4-MM上的平均准确率达到79.80%,稳居7B规模模型第一,显著优于SFT、DPO、SALAD、AlignChat等基线方法[26][27][33] - **附加效益**:使用TARS训练后,模型的文本准确率也同步提升(Qwen提升2.39%,Phi提升5.43%),证明语音模态学习能增强文本推理能力[28] 行业影响与未来展望 - TARS标志着语音大模型研究的范式转变,证明了On-policy RL在解决模态对齐问题上优于传统的Off-policy方法[30] - 提出的“表征+行为”对齐策略,为打造拥有与纯文本模型同等智商的全能型Omni模型提供了可行路径[31] - 该研究成功消除了模态推理鸿沟,为实现高智商语音交互奠定了基础[31]
中游智驾厂商,正在快速抢占端到端人才......
自动驾驶之心· 2026-01-16 10:58
行业趋势与市场现状 - 智能驾驶领域的技术焦虑正在产业链中游厂商间快速传播 [1] - 行业前沿技术发展放缓,业内量产方案趋同,整体呈现技术下沉趋势 [2] - 端到端等前沿技术的大规模量产起点预计在2026年 [2] - 二十万以上的乘用车年销量约700万辆,但头部新势力销量占比不足三分之一,搭载端到端技术的量产车型占比更低 [2] - 随着L3级自动驾驶法规推进,中游厂商面临紧迫的技术升级压力 [2] 技术发展路径与需求 - 端到端技术的成熟被视为开启更大规模量产的关键 [2] - 近期众多公司算法负责人迫切希望了解端到端所需的技术能力 [2] - 在端到端时代,感知任务合并与规控算法学习化已成为绝对主流 [7] - 如何高效合并感知任务、设计学习化的规控模块成为各大公司的核心必备技能 [7] 端到端技术架构与方案 - 主流技术架构分为两段式与一段式端到端算法 [8][9] - 两段式框架涉及感知与规划控制(PNC)间的信息传递建模,存在信息损失 [8] - 一段式框架可实现信息无损传递,性能通常优于两段式方案,代表方法包括基于VLA和基于Diffusion的方法 [9] - 量产落地需包含后处理的兜底逻辑,例如时空联合规划等轨迹平滑优化算法,以保证输出轨迹的稳定可靠 [13] 关键赋能技术与应用 - 导航信息在自动驾驶中起引导、选路、选道的关键作用,其地图格式、编码与嵌入方式是技术重点 [10] - 仅靠模仿学习存在局限,需结合强化学习(RL)使机器学习因果关系,实现更好的泛化能力 [11] - 轨迹输出优化涉及模仿学习与强化学习的结合使用,具体算法包括基于扩散模型和基于自回归的算法 [12] 量产实践与经验 - 真正的量产落地需从数据、模型、场景、规则等多视角综合施策,以快速提升系统能力边界 [14] - 课程内容聚焦量产实践,涵盖从架构概述、具体算法、导航应用、RL训练到轨迹优化及兜底方案的完整链条 [7][8][9][10][11][12][13][14]
解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估
机器之心· 2026-01-15 11:52
文章核心观点 - 香港大学与Adobe Research联合发布了一种名为Self-E的新型文本到图像生成框架,其核心创新在于将训练范式从传统的“轨迹匹配”转变为“落点评估”,从而实现了无需依赖预训练教师模型进行知识蒸馏,即可从零开始训练出支持任意推理步数的模型 [2][7] - 该模型能够在极少的推理步数下生成语义清晰、结构稳定的图像,同时在常规50步设置下保持顶级质量,并且生成质量随步数增加呈现单调提升,实现了“一个模型,适应任意计算预算”的目标 [2][23][28] 技术范式转变 - 传统扩散或流匹配模型学习的是“局部向量场”,即在给定噪声状态下预测下一步方向,这种“轨迹匹配”方法在大步长推理时误差会被放大,导致生成质量下降 [7] - Self-E进行了根本性的范式改变,将训练重心从“每一步走得对不对”转向“落点好不好”,即“落点评估”,通过评估生成结果并给出纠偏方向来提供动态反馈信号 [7][11] 核心训练机制 - Self-E采用两条互补的训练信号:一是从真实数据中学习分布的局部结构,二是通过“自我评估”学习分布层面的正确性 [12][13] - 在“自我评估学习”阶段,模型先进行一次“长距离跳跃”生成一个样本,然后在落点处利用自身当前学到的局部估计产生一个“方向信号”,指导样本如何移动才能进入更高质量、更符合文本的分布区域,该评估信号不来自外部教师,而是来自模型自身的动态估计 [17] - 训练最终通过一个统一的损失函数实现,该函数结合了从数据学习的目标和自我评估的目标 [20][21] 性能表现 - 在GenEval基准测试中,Self-E对比其他方法取得了全面领先,并且性能随步数增加呈现单调提升 [24][25] - 在少步推理区间优势尤其显著,例如在2步设置下,Self-E的得分达到0.7531,相比当时最佳对比方法的0.6338,提升约为+0.12,而多种传统模型在2步下几乎无法生成可用结果 [25] 宏观意义与工程价值 - 从宏观视角看,Self-E将训练过程组织成一个类似强化学习的“环境-智能体”闭环,其内部的评估器角色接近“可查询的学习型奖励模型”,为将强化学习更系统地引入视觉生成训练提供了新的接口 [26][27] - 该框架的工程意义在于,同一个模型检查点可以根据不同场景动态选择推理步数,例如在交互式场景使用1-4步追求即时反馈,在高质量离线渲染时使用50步追求细节上限,同时训练侧绕开了复杂的教师蒸馏流程 [28]