Workflow
AI前线
icon
搜索文档
“再也不雇人类了!”高薪员工闪辞,创始人直接用Agent填满工位,半年前才被AI坑得删库?
AI前线· 2026-01-07 14:36
整理 | 华卫 "是时候在工作场景中突破 AI 的应用极限了。"在近期的一档播客节目中,素有 "SaaS 教父" 之称的 Jason Lemkin 表示,这意 味着其销售部门将不再招聘人工员工。Lemkin 是全球最大的企业服务创业者社区 SaaStr 的创始人,曾向 B2B 初创公司投资 超过 2 亿美元,如今他正领导 SaaStr 全面押注 AI Agent。 他透露,公司目前部署了 20 个 Agent,已承接原本需要 10 名销售开发代表和客户主管协作完成的工作。从全人工团队到 AI 主导的转型,SaaStr 的推进速度相当迅速。 两名高薪员工闪辞, 创始人直接用Agent换掉大半人 去年 5 月时,SaaStr 仅有 1 个 Agent 投入实际运营,用于处理各类数字化任务。然而就在当月举办的 SaaStr 年度大会期 间,公司两名高薪销售代表突然宣布离职。Lemkin 回忆道,他随即找到公司首席 AI 官 Amelia Lerutte,明确表示:"我们的销 售部门再也不招人工了,要全力用 Agent 突破行业天花板。" 在他看来,与其花费 15 万美元年薪招聘一名最终可能离职的初级销售代表,不如启 ...
苏妈和李飞飞炸场CES!AMD AI全栈野心显露:从云端到个人PC,AI芯片性能四年要飙1000倍
AI前线· 2026-01-06 20:10
行业宏观趋势与愿景 - AMD首席执行官苏姿丰预测,未来五年内将有50亿人每天使用AI,超过世界人口的一半[3] - 自ChatGPT在2022年底发布以来,AI活跃用户已从100万暴涨至10亿以上,增长速度远超互联网早期阶段[3] - OpenAI联合创始人Greg Brockman指出,计算能力是AI走向通用智能的最大瓶颈,世界需要的GPU数量远超现有规模[7] - AI正从语言智能迈向具备空间理解与行动能力的生成式AI新阶段[37] AMD的AI战略与版图 - 公司旨在补齐AI普及所需的算力基础设施,让AI无处不在,算力人人可及[7] - 战略涵盖云端数据中心与本地终端(如AIPC)两大核心战场[9] - 公司提出“全球人工智能运行在云端,而云端运行在AMD平台上”的愿景[8] 数据中心与云端算力解决方案 - 推出下一代机架级平台Helios,单机架集成72块MI455 AI GPU,算力高达2.9 ExaFLOPS,并搭载31TB HBM4内存[7][14] - Helios采用开放OCP机架标准,强调模块化与可扩展性,可与Meta合作开发,数千个机架可互联成超大训练集群[13][15] - 核心芯片Instinct MI455 GPU采用2nm与3nm混合工艺及3D小芯片封装,晶体管数量超过3000亿个,相比MI300系列提升约70%[16][17][18] - MI455与EPYC服务器CPU、Pensando网络芯片深度集成,旨在解决大模型训练中的“内存墙”瓶颈[17][19] - 下一代MI500系列AI加速器计划于2027年推出,全面转向2nm工艺,目标在四年内(MI300到MI500)使AI计算性能提升1000倍[8][21][23] 终端与AIPC战略 - 推出Ryzen AI Max 400系列处理器(代号Strix Halo),面向AI开发者和高端创作者[25] - 该处理器最高配备12核CPU,集成专用AI引擎,最高算力达60 TOPS,并采用统一内存架构,CPU与GPU可共享最高128GB内存[27] - 演示显示,搭载Ryzen AI的设备可在完全离线情况下流畅运行700亿参数的医疗大模型[27] - 在高端笔记本形态下,其AI与内容创作应用表现快于最新一代MacBook Pro;在小型工作站场景中,成本明显低于英伟达DGX Spark[28] - 发布Ryzen AI Halo参考平台,称为“世界上最小的AI开发系统”,可在离线条件下运行多达2000亿参数模型[31] 空间智能与世界模型 - 与“AI教母”李飞飞同台探讨空间智能,认为这是连接“感知→推理→行动”的关键能力[5][36] - 李飞飞创立的World Labs已实现仅凭几张甚至单张图片,即可生成几何一致性、可导航的3D世界,将过去需数月的3D场景建模缩短至几分钟[37][38][39] - 世界模型需要实时响应与编辑,对算力提出极高要求,需极高的内存、大规模并行计算和快速推理速度[40] - World Labs的世界模型已运行在AMD MI325X GPU与ROCm软件栈上,并在几周内实现了超过4倍的推理性能提升[40] - 随着MI450等后续平台推出,更大规模世界模型的训练与实时运行将成为可能[41] 其他新品发布 - 发布消费级显卡Radeon RX 9070和RX 9070 XT,搭载RDNA 4架构及FSR 4等AI图像技术[43] - RX 9070 XT在30多款游戏中平均比RX 7900 GRE快42%;RX 9070在30多款游戏中平均比RX 7900 GRE快21%[45][47] - 发布下一代服务器CPU EPYC Venice,采用2nm工艺,最多集成256个Zen 6核心,内存与GPU带宽相比上一代实现翻倍,专为高效服务AI集群设计[49][50][51]
2026“企业 Agent 上岗元年”?零一万物六大判断定义企业多智能体,不再沿用大厂标准化产品模式”
AI前线· 2026-01-06 20:10
文章核心观点 - 零一万物发布《中国企业智能体2026六大预判》,认为企业智能体正从“单点工具”进化为“智能管理系统”,多智能体架构将重构企业组织形式,推动AI从“单点提效”转向“全局优化”[2][4] - 公司基于与行业头部客户的实践,预判到2026年,企业多智能体将实现规模化“上岗”,竞争焦点将从“招多少人”转向“指挥多少硅基军团”[11] - 公司正式升级“万智”平台至2.5版,以企业级多智能体为核心应用,并采用“代码先行、模型驱动”的硬核架构及FDE(前置工程师)等新模式,旨在缩小与客户的理解落差,实现高效交付[14] 企业智能体2026年六大预判 - **预判一:智能体从“一人一工具”进阶“一人一团队”** - 多智能体推动企业组织的系统性智能化,将顶尖人才能力拆解、重构并封装成可复用的能力模块,实现高效复制与24小时运转[5] - 智能体团队具备“弹性超能力”,业务高峰期自动扩容,让中小企业获得与巨头竞争的“不对称优势”[5] - 企业应通过多智能体实现业务能力的“软件化”与“服务化”(CaaS,能力即服务)[5] - **预判二:多智能体需具备TAB三要素** - 下一代企业的竞争优势取决于将业务能力转化为数字资产的速度[6] - 多智能体必须具备TAB三要素:AI Team(团队作战),实现1人指挥1支智能体团队,突破“人才瓶颈”,实现“能力软件化”[6] - 多智能体将企业核心能力解构成可自由拼装的能力模块[7] - **预判三:中国将成为全球多智能体落地的“超级引擎”** - 中国拥有全球最完整的产业链、领先的开源模型、超大规模市场及丰富的复杂业务场景,为多智能体提供天然试验田[8] - 中国在开源大模型领域的全球领先地位,降低了AI应用门槛,推动技术普惠和生态共建[8] - 中国有望实现从“世界工厂”到“智能体工厂”的跃迁,企业需要深度结合行业知识的“业务级智能体”[8] - **预判四:“一把手工程”是赢取AI红利的关键路径** - 企业AI转型是企业战略与组织架构的系统性重构,需避免“局部优化工程”制造新的“数据孤岛”[9] - 需要具备“技术信仰型领导力”的一把手,以全局价值导向克服既得利益,推动AI变革[9] - “一把手工程”模式价值已得到验证,FDE(前置工程师)成为承接该工程的关键,是既懂代码又懂业务的复合型人才[9] - **预判五:智能体反哺推动企业数字基建“自主进化”** - 智能体不仅是数字化的“消费者”,更是企业数据与知识体系的“建设者”[10] - 通过自动标注、数据清洗、行为反馈等机制,智能体能在运行中持续丰富企业知识库、优化决策模型,形成“数据飞轮”和未来企业“记忆库”[10] - **预判六:2026年将成为企业多智能体规模化“上岗元年”** - 2026年,企业竞争焦点将从“招多少人”转向“指挥多少硅基军团”[11] - 多智能体将率先在数据基础完善、业务流程复杂、协同要求高的领域实现规模化部署[11] - “智能体运营师”将成为企业新兴关键岗位,人类员工的核心竞争力转向决策力,“复合型员工”成为人机协同核心[11] - 企业核心竞争力体现在三方面:早(尽早引入)、快(选用最先进Agent)和有闭环数据(利用自身数据持续训练)[11] 零一万物产品战略与模式 - **万智2.5平台升级** - 万智企业大模型一站式平台升级至2.5版,企业级多智能体成为平台核心应用,好比Office之于Windows系统[14] - 针对企业动态、开放场景的难点,采用“代码先行、模型驱动”的硬核架构,通过MCP协议和安全沙箱确保执行切合真实生产场景及工业级稳定性[14] - **差异化商业模式** - 公司团队不再沿用大厂销售标准化产品的模式,而是基于客户需求进行梳理和设计,转化为产品原型,再以类似FDE模式高效推进,交付演示版本或PoC,持续缩小与客户的理解落差[14] - 大厂在承接定制化或智能体项目时因理解落差导致持续亏损,而公司探索的新模式旨在降低交付成本、缩减沟通差距并寻求可行盈利路径[15] - **技术实现路径:“三位一体”与“三步走”** - 企业级多智能体的实现依托于“基模-框架-应用”三位一体的整合[16] - 底层:开源基座模型、行业垂类模型及模型训练方法论[17] - 中间:企业级多智能体技术框架,将模型封装为角色化、工具化、可协同的Agent团队[17] - 顶层:面向行业的“超级员工”与解决方案,直接对接业务部门并承担KPI[17] - 为企业规划多智能体进化“三步走”布局[15][16] 1. 确立“一把手工程”下的全局策略,将多智能体表现与核心KPI深度绑定,切入高频、复杂、多部门协作的核心业务链路[15] 2. 引入FDE模式跨越组织鸿沟,防范系统性熵增,通过精细化管理紧盯准确率、响应延迟与Token效能,避免“内耗型架构”[16] 3. 通过协同进化跨越技术鸿沟,拥抱开源多模型混合架构,夯实目标规划、系统调用、安全审计、多模型协同四大核心能力,构建稳固的三层架构[16] 对企业级智能体(Agent)的认知与展望 - **模型与Agent的区别** - 长期看可能实现“模型即应用”或“模型即Agent”,但短中期模型和应用仍有较大差别[18] - 针对企业场景,模型只是Agent的“大脑”,大脑之外至少还缺四样关键东西[18] 1. 安全、可控、合规,基于特定的企业记忆了解企业专属边界[18] 2. 工具和系统的能力,保证跨系统调用的准确率和效率[18] 3. 智能体需具备目标和任务规划能力,理解企业KPI并拆解成目标任务,在执行中动态调整[19] 4. 多模型、多角色的协同,根据任务选择最适合场景的模型,并在多智能体间实现分工协同与互相校对[19] - **行业价值判断** - AI Agent的颠覆性价值在于行业重构,重点将从降本转向增效[20]
从算法天才到机器人造梦者,原力灵机范浩强详解具身智能进化论:模型解锁场景,场景定义硬件
AI前线· 2026-01-06 12:10
文章核心观点 - 具身智能(机器人)是AI发展的必然方向,当前(2025年初)正迎来关键的产业拐点,其标志是硬件供应链的成熟与算法能力的突破使得两者“拼图”开始对齐,行业从学术讨论走向产业共识[4][6] - 在具身智能的研发中,算法能力是先行和驱动因素,遵循“模型解锁场景,场景定义硬件”的逻辑,硬件能力的提升是算法突破后的结果[11][13][14] - 公司(原力灵机)选择了一条聚焦多模态感知、高质量真机数据和建立行业评测标准的务实技术路线,旨在构建可验证、可复现且能长期积累的算法能力体系[16][17][23] AI落地历程与当前拐点 - 过去十年AI主要完成了在“看”(感知)和“判断”(决策)领域的产业化落地,但智能仍停留在系统内,很少真正介入物理世界[2][3] - 2024年,由于大模型能力外溢、真机效果提升及头部厂商入场,具身智能首次从学术讨论走向产业共识,成为AI领域最受关注的新热点之一[6] - 2025年初,硬件与算法两块长期错位的拼图开始对齐:硬件侧,机器人关键零部件(如关节)国产化率明显提升,供应链在性能、稳定性和交付上逐步可用,使成本控制和快速迭代的不确定性大幅下降[7][8];算法侧,Diffusion、Transformer等模型进入机器人动作生成与控制领域,使机器人能通过数据学习复杂行为,具备了系统性提升能力的基础[9] 具身智能研发的核心逻辑 - 在具身智能的早期研发中,算法先行是普遍逻辑,即便是硬件能力见长的公司,其关键突破也往往来自算法层面(如运动控制算法)[13] - 算法能力的突破会解锁新的动作能力,从而驱动硬件形态发生变化,即“模型解锁场景,场景定义硬件”[14] - 硬件研发有其客观周期,无法被简单压缩,而算法能力的迭代效率是决定整体进展速度的关键因素,具身智能是一场长期竞争[15] 公司的技术路线与策略 - 公司坚持多模态感知路线,在模型训练中不仅依赖视觉,还引入深度信息、力觉、触觉及声音信号,因为这些感知维度是机器人稳定、安全完成任务所不可或缺的[18] - 在数据策略上,公司强调“质量优先”,重点采集高质量的真机遥操数据,将数据采集作为一项严谨的工程来设计,以确保算法能力在真实场景中的稳定复现[19][20] - 公司认为行业缺乏统一、可信的评测体系,因此早期即投入精力联合Hugging Face推出真机评测平台RoboChallenge及相关开源工具(如VLA工具箱Dexbotic、开源硬件DOS-W1),旨在建立行业标准,便于技术比较和共识形成[21][23]
黄仁勋CES最新演讲:Rubin 今年上市,计算能力是 Blackwell 5 倍、Cursor 彻底改变了英伟达的软件开发方式、开源模型落后先进模型约6个月
AI前线· 2026-01-06 08:48
文章核心观点 - 英伟达在CES 2026上宣告AI发展进入历史性转折点,从理解语言走向改造物理世界,并系统性披露了面向“物理AI”的最新技术路线图 [2] - 公司正试图以一套完整的全栈式计算与软件体系,推动AI从“看懂世界”走向“理解、推理并行动” [2] 双重平台迁移与行业根本性转变 - 计算的核心正从传统CPU转向以GPU为核心的加速计算 [4] - 应用开发的基础正从预定规则代码转向以人工智能为基座,应用程序转变为能理解语境、动态生成内容的全新实体 [4] - 这两种根本性转变同时发生、相互交织,彻底重塑了计算的本质 [4] 2025年AI关键进展与趋势 - 2025年开源模型取得关键突破,虽仍落后尖端模型约六个月,但已触及技术前沿 [3][9] - 具备推理能力的模型出现,创造了“Test Time Scaling”革命性概念,即实时思考的能力 [6] - 能自主思考的Agent系统在2024年诞生,2025年已渗透到各个角落,能推理、检索信息、使用工具、规划未来 [8] - 物理AI是与物理世界交互及理解物理定律的AI,是除大语言模型外最重要的一类AI [8] - 开源模型的突破激活了全球企业、行业,模型下载量呈现爆炸式增长 [9] 英伟达的物理AI战略与三台计算机体系 - 构建物理AI需要三台计算机:用DGX训练AI模型,通过Omniverse和RTX上的Cosmos来仿真、测试与验证模型,最后通过AGX将模型部署到现实世界 [12] - 物理AI浪潮为英伟达物理AI部门带来近万亿美元的机遇 [12] - 公司将物理AI模型分为三大系列:Cosmos World基础模型、通用机器人模型GROOT,以及具备思考能力的自动驾驶模型AlphaMayo [12] Cosmos世界基础模型进展与应用 - Cosmos在对物理世界的理解上已与GPT-40、Gemini等顶级模型并驾齐驱,在物理推理等关键评估中取得更高分数 [14] - 这些模型下载量已突破400万次 [14] - 正驱动制造、物流、医疗健康与出行等各行业的实际应用,例如日立、Lem Surgical、Salesforce、Telet、Uber等公司均已部署 [14] 开源自动驾驶模型AlphaMayo - AlphaMayo是全新的开源AI模型、仿真工具和数据集系列,用于训练物理机器人和车辆,旨在帮助自动驾驶车辆应对复杂情况 [16] - 这是史上首个让自动驾驶车辆具备思考能力的模型,可以让自动驾驶汽车“像人类一样思考”,通过推理解决复杂边缘场景 [16] - 模型拥有100亿参数,既足以处理任务,又轻量化到可在工作站运行 [18] - 公司开源了包含17小时驾驶记录的数据集,成为业内最大最多元的公开自动驾驶数据集 [19] - 同时发布完全开源的AlpaSim仿真框架,用于评估推理模型 [19] 开源机器人模型GROOT 1.6与开发平台 - 发布GROOT 1.6,这是专为人形机器人打造的最新开源推理模型 [24] - 该版本采用Cosmos Reason作为长效思考中枢提升推理能力,并解锁了人形机器人全身协调控制能力 [24] - GROOT 1.6已成为社区热门选择,位列Hugging Face平台下载量最高的机器人基础模型之一 [24] - Isaac机器人平台提供了构建“通专融合型机器人”所需的开放框架、模型与工具库 [24] - 开发了开源控制中心NVIDIA OSMO,整合从数据生成到训练的完整流程 [26] - 发布Isaac Lab Arena,这是全球首个用于在仿真环境中安全测试机器人技能的开源框架 [26][27] 机器人生态合作与硬件支持 - 波士顿动力、Franco Robotics、Lem Surgical、LG电子等先进机器人公司已在Isaac与GROOT基础上构建其新一代物理AI系统 [29] - 英伟达与Hugging Face合作,将200万英伟达机器人专家与1300万Hugging Face AI开发者社区连接起来 [30] - 推出基于Blackwell架构的Jetson T4000,在40-70瓦功耗下提供1,200TOPS的AI算力与64GB内存,其AI性能与能效较AGX Orin提升4倍 [31] AI超算Vera Rubin发布 - 发布面向人工智能数据中心的新计算平台Vera Rubin,该系统目前正在生产中,首批产品将于2026年下半年上市 [32][36] - AI模型规模每年以10倍速度增长,推理变为思考过程导致计算需求爆炸,每年生成的文本量以5倍速度增长 [34] - 每次达到新边界,上一代AI生成文本的成本就会下降约10倍 [34] - Vera Rubin是一个由六种芯片(Vera CPU、Rubin GPU等)通过极致协同设计组成的系统 [38][44] - 系统重近2吨,包含220万亿个晶体管,是100%全液冷设计 [37][41] - 计算板卡可提供100 Petaflops的AI算力,是前代的5倍 [40] - 自设计启动以来累计投入1.5万工程师·年 [41] - 虽然功耗翻倍,但冷却液温度保持45°C,整个系统能效提升约两倍,预计能为全球数据中心节省6%的电力 [47] - 以训练10万亿参数模型为例,Rubin的吞吐量远超Blackwell,仅需1/4数量的系统即可在一个月内完成相同训练 [49]
被骂疯了!微软CEO刚甩出年终反思:“今年别说AI垃圾了”,“模型滞后”新定义遭痛批,网友:你是真脱离现实
AI前线· 2026-01-05 16:33
微软CEO对AI发展的年度反思与愿景 - 微软首席执行官Satya Nadella发布博文,将2026年定位为又一个“AI关键之年”,并阐述了对AI发展下一阶段的愿景[2] - 文章聚焦于当前AI在认知与应用层面存在的文化及技术局限,而非新软件发布或季度业绩[2] - Nadella宣布将在一个名为SN Scratchpad的新个人网站平台更新其关于AI未来的构想[2] 对当前AI发展阶段的判断与核心挑战 - 行业已度过最初的探索阶段,正在进入广泛传播阶段,但仍处于马拉松比赛的起跑阶段[4] - 行业正逐步厘清“噱头”与“内核”的边界,下一阶段的核心竞争是关乎系统协同、安全规范与社会认可度的系统性挑战[4] - Nadella用“模型滞后”形容当下局面,即模型能力发展速度超过了行业将其应用于实际并产生影响的能力[4] 为2026年创造价值需做的三件关键事 - 第一,将AI重新定位为赋能人类潜能的“支撑框架”,而非替代品,关键不在于模型算力,而在于人们如何运用它实现自身目标[5] - 第二,推动AI系统突破单一模型局限,实现从“模型”到“系统”的跨越,构建多模型与智能体协同调度、兼顾记忆与权限管理、支持安全工具调用的支撑框架[5] - 第三,应对延伸至伦理层面的挑战,考量AI对人类社会与地球生态的综合影响,AI需具备切实的现实世界评估价值,在能源、算力与人才等稀缺资源的投放上做出选择[6] 微软的AI战略投入与行业地位 - 微软已在AI合作项目与基础设施领域投入数百亿美元,并借此确立自身在行业软硬件技术体系中的核心地位[6] - 公司意识到单靠技术主导地位远远不够,重点应从诟病AI缺陷转向设计能对社会做出持久贡献的系统[6] 公众与行业对Nadella观点及微软AI实践的负面反馈 - Nadella的首篇博文引发了大量负面评价和批评,被指“痴心妄想、脱离了现实”[3][7] - 有观点认为文章是回避大众不满、转移责任的企业指令,将产品设计弊病甩给用户[9][10] - 批评指出,将AI称为“认知增强工具”的论调空洞,实际体验是千篇一律的输出、隐蔽漏洞和主观臆测系统,工具默认以侵扰式、自动化方式运作却未能提供真正帮助[10] - “从模型迈向系统”的发展方向被批评意味着更深的绑定和用户控制权的丧失[10] - 一边谈论资源匮乏,一边推动大型全天候AI系统落地,其中的伦理考量被指是事后辩解[10] 微软在Windows中整合AI的举措与市场争议 - 微软正持续将其Copilot平台拓展至Windows系统与Office办公套件,但技术落地进程参差不齐,许多承诺功能仍停留在愿景层面[12] - 微软在Windows预览体验版中推出Agent Launchers框架,允许开发者在操作系统中注册智能体,旨在打造可在本地设备上自主运行、代表用户处理事务的智能助手[12] - Windows团队坚信与操作系统深度集成的智能体终将战胜仅运行在系统表层的智能体[13] - 公司承认智能体技术带来前所未有的安全风险,已构建安全框架让智能体在隔离工作空间内运行,并默认关闭相关功能[13] Windows业务的现状与AI整合的战略动机 - 在微软最新财年,Windows及设备部门营收为173亿美元,过去三年基本持平,规模低于游戏业务(235亿美元)、领英(178亿美元),远不及Azure及云服务业务的980亿美元和微软365商业版近880亿美元的营收[15] - 相比之下,在Windows 3.0发布的第五年,平台事业部营收占公司59亿美元总营收的40%左右,Windows曾是增长引擎[15] - 通过整合AI技术是微软让Windows重归增长轨道的最佳赌注[16] - 有观点认为,微软在Windows中强行植入AI功能并非出于用户需求,而是为自身巨额AI投资寻找合理借口并创造收入[14] - 资深科技记者指出,用户对AI功能依赖度越高,微软就越容易向他们推销付费增值服务[14] 当前AI行业面临的整体审视与竞争格局 - AI企业正因业绩表现、环境成本以及2025年泛滥成灾的生成式“粗制滥造内容”受到越来越多的审视[8] - 在企业级市场,微软正凭借Azure云平台、Microsoft 365 Copilot及商用智能体生态,在云原生AI智能体及服务领域与谷歌、亚马逊、OpenAI等企业展开激烈竞争[16] - 当下的市场格局已变,Windows不再是计算中心,需与手机、浏览器、云应用争夺用户注意力,微软无法保证开发者会像35年前那样蜂拥而至其智能体平台[14]
SIGIR 2025 | 视频检索新范式!北邮、北大等联合提出AV-NAS:首个音视频哈希搜索架构,让Mamba与Transformer自动“组队”
AI前线· 2026-01-05 16:33
文章核心观点 - 研究团队提出了一种名为AV-NAS的创新方法,首次将神经架构搜索引入多模态视频哈希领域,旨在解决传统方法“重视觉、轻听觉”以及依赖人工设计网络结构的问题 [2] - 该方法构建了一个统一覆盖Transformer与Mamba的搜索空间,能够自动发现最优的跨模态融合机制,并揭示出在音频时序建模中,“CNN + FFN”的简单组合优于复杂的Transformer方案 [2] - AV-NAS为多模态视频检索提供了一条兼顾高效存储与快速检索的全新路径,其论文已被SIGIR 2025录用,代码已开源 [3][5] 技术方案与架构设计 - **核心目标**:AV-NAS旨在通过数据驱动的NAS,自动搜索出最适合视频哈希任务的网络结构,取代依赖专家经验的“人工设计”模式 [8] - **整体架构**:模型包括输入特征提取、双路Encoder编码模块、Fusion融合模块、Transformation语义变换模块和Hash Layer哈希模块 [9] - **统一搜索空间**:搜索空间包含6类操作,统一了Transformer(如SelfAttention)、Mamba/SSM(如SelfSSM)、CNN、MLP等多种主流范式 [11][13] - **编码模块**:为视觉和音频设计双路Encoder,其架构非固定,而是在统一骨架基础上,通过NAS为每个单元自动选择最合适的算子组合 [14][16] - **融合模块**:提出基于Mamba的新型跨模态融合机制CrossSSM,以更高效的序列建模实现跨模态对齐,同时搜索空间也保留了更轻量的融合策略供自动选择 [20][21] - **搜索策略**:设计了“粗搜索-剪枝-微调”三阶段流程,以应对约7.83×10^?的巨大组合空间,在效率与效果间取得平衡 [27][31] 性能优势与实验结果 - **存储与检索效率**:面对10亿条视频,用常规1000维浮点向量存储需8TB,而压缩为64位二进制哈希码仅需8GB,并能实现近似O(1)的高速检索 [6] - **性能对比**:在ActivityNet和FCVID数据集上,AV-NAS在mAP指标上整体优于其他方法。其搜索到的最优架构Arch-1和Arch-2分别取得了各自数据集上的最高mAP [32] - **具体数据**:在ActivityNet数据集上,AV-NAS (Arch-1) 的64-bit mAP达到0.9010;在FCVID数据集上,AV-NAS (Arch-2) 的64-bit mAP达到0.9321 [34] - **超越专家设计**:与手工设计的Transformer、Transformer+、Mamba等架构相比,AV-NAS搜索到的结构更优,在ActivityNet上mAP提升约3–4%,在FCVID上提升约1% [35][36] - **音频建模新发现**:自动搜索结果显示,对于音频时序建模,最优结构并非主流Transformer或Mamba,而是更偏好“FFN+CNN”的组合 [30][37] - **多模态必要性**:消融实验表明,去掉音频或视觉模态都会明显降低性能,证实了声画融合是提升检索质量的关键 [38] 行业意义与影响 - **技术突破**:AV-NAS是多模态视频哈希领域在NAS方向的破冰之作,证明了“自动搜索”比“手工设计”更可靠 [40] - **最佳实践揭示**:通过数据驱动揭示了视听多模态处理的最佳实践:视觉依赖时空注意力,音频偏好局部与全局的简单组合(FFN+CNN),而跨模态融合则是Mamba (SSM)的优势舞台 [40] - **设计思路革新**:为未来大规模视频检索系统设计提供了新思路,即通过数据驱动让模型自动找到视觉与听觉信息处理的最佳平衡点,而非盲目堆叠复杂模型 [40]
谷歌 Gemini API 负责人自曝:用竞品Claude Code 1小时复现自己团队一年成果,工程师圈炸了!
AI前线· 2026-01-05 15:18
文章核心观点 - 谷歌资深工程师通过亲身实践,验证了Anthropic的Claude Code在AI编程领域的强大能力,其在一小时内生成的原型系统接近其团队花费一年打磨的成果,这标志着AI编程能力实现了快速且超预期的跃迁 [2][3][7] - 该事件引发了关于AI编程本质、其对开发工作流影响以及行业未来走向的广泛讨论,焦点集中在“定义问题”与“执行编码”的价值分配、以及AI是替代人力还是提升工程师层次的问题上 [12][14][17] - 尽管存在争议,但行业领先者认为AI发展并非零和博弈,承认竞争对手的出色成果能激发动力,同时揭示了谷歌与Anthropic之间深度的资本与算力合作关系 [19][20][22] Claude Code的技术能力与影响 - **效率的颠覆性对比**:谷歌主管工程师仅用三段话描述问题,Claude Code在一小时内生成了一个系统,与其团队去年做出的成果非常接近 [3] - **AI编程能力的快速演进**:行业进展远超预期,从2022年仅能补全单行代码,发展到2025年能够创建并重构整个代码库 [9][10] - **实际生产力案例**:Claude Code项目创建者披露,在30天内,其所有贡献(259个Pull Request,497次提交,新增约4万行代码,删除约3.8万行代码)均由Claude Code搭配Opus 4.5完成,期间未打开过IDE [22] - **对工程师职业路径的潜在影响**:有观点认为,若早年具备AI编程能力,可能将职业生涯最初6年的积累压缩到短短几个月 [9] 行业讨论与争议焦点 - **“一年vs一小时”的实质**:争议核心在于被压缩的时间究竟是“编码”还是“思考与对齐”,有观点指出写代码是容易部分,耗时的是会议、对齐、架构争论等流程问题,AI并未参与这些 [14] - **工程实践中的时间消耗**:大量开发时间被会议、规划、调试及上下文切换吞噬,AI的作用在于直接切入核心产出,但也引发了对企业可能因此削减人力的担忧 [17][18] - **“做出原型”与“做成产品”的区别**:工程师后续强调,做出第一个版本不等于做成一个产品,为争论提供了重要视角 [19] 谷歌与Anthropic的关系 - **资本与股权联系**:谷歌是Anthropic的重要投资方,持有其约14%的股份,并累计投资约30亿美元 [20][21] - **深度的算力合作**:双方在2025年10月深化合作,谷歌同意向Anthropic提供最多100万颗TPU,交易总价值高达数百亿美元,预计2026年带来超过1吉瓦的算力上线 [21] - **内部技术使用**:有信息表明谷歌内部长期在使用Anthropic的Sonnet和Opus模型 [20] - **非零和博弈的行业观**:谷歌工程师公开表示,行业不是零和博弈,可以坦然承认竞争对手的出色工作,并以此激发自身动力 [22] 先进的AI编程工作流方法 - **验证与反馈回路**:建立稳定反馈回路可使最终产出质量提升2~3倍 [23] - **计划先行的模式**:多数任务从Plan模式开始,推敲扎实计划后,AI常能“一把梭”完成实现 [23] - **流程自动化与集成**:将高频操作固化为可复用流程,并让AI接入Slack、BigQuery、Sentry等外部工具,嵌入完整工程流程 [23] - **并行与协作**:运行后台Agent复查输出,并行多个实例分工,甚至在代码评审中直接@AI补充文档 [23]
独家对话前华为天才少年李元庆:首款规模化具身智能产品中国造!多机异构是未来方向
AI前线· 2026-01-04 18:23
核心观点 - 前华为天才少年、具身智能领域顶尖人才李元庆已正式加入乐享科技,将负责创新业务战略规划与核心技术攻关 [2] - 李元庆认为,具身智能领域最应抓住“落地”和“数据”两件事,其团队核心发力点是打造一款面向家庭用户的功能性产品 [3] - 李元庆判断,世界上第一款能大面积铺开的具身智能落地产品很可能在中国出现,并认为“多机异构”技术路线是具身智能未来的发展方向 [3][29] 行业发展趋势与驱动因素 - 2025年机器人领域投资热潮持续,其核心驱动因素是市场对未来确定性的预期,以及一二级市场的联动 [6] - 二级市场公司布局机器人领域,旨在为传统制造业赋能、进行市值管理打造第二增长曲线,以及盘活现有团队 [6][7] - 技术成熟度取得关键突破,与2024年相比,2025年机器人在稳定性、可靠性上显著提升,正从技术演示阶段向产品化方向推进 [7][8] - 机器人局部运动控制技术已越来越成熟,发展速度快,正朝着产品化落地方向推进 [11] 2025年关键技术突破 - **局部运动控制**:LocoFormer技术能让机器人实现跨本体的局部运动控制,价值巨大 [8] - **远程操作**:AnyTracker相关应用能让机器人像“身外化身”一样精准复刻人类动作,时延和稳定性表现突出 [8] - **任务成功率**:机器人已具备简单任务100%完成的能力,复杂任务成功率也在稳步提升,证明了落地应用的可行性 [10][11] - **视觉语言导航**:VLN策略在收敛,机器人开始能理解规则(如绕开草坪),这得益于大模型的灌输 [11] - **操作控制**:单点任务成功率从过去的60%-90%提升至100%,多任务成功率也在稳步提升 [11] - **技术架构融合**:行业开始将视觉语言动作模型与强化学习结合,使机器人能完成穿鞋带、榨橙汁等高难度任务,其中榨橙汁成功率在论文展示场景中已接近100% [12] 世界模型与数据瓶颈 - **世界模型的核心价值**:能极快、极大规模地生成数据金字塔第一层(视频、网络数据)的有效数据,用于构建基础模型所需的数据资产库,解决百万级小时视频数据采集成本高、速度慢的问题 [14] - **世界模型的潜力**:有潜力替代部分物理仿真引擎,模拟摩擦力学、动力学等,但目前操作控制层面的效果尚未完全显现 [15] - **仿真合成数据的意义**:能补充数据多样性,对训练基础模型至关重要,是许多技术方向探索的前提 [15] - **数据工厂的定位**:聚焦于采集真机数据,服务于数据金字塔的第二层和第三层,用于模仿学习等场景,以解决仿真拟合不准确的问题 [16] - **行业核心困境**:缺少优质的基础模型,而好的基础模型又离不开海量数据的支撑,目前技术远未满足规模化应用需求 [17] 硬件发展现状与挑战 - **关键发展方向**:球形关节、耐磨抗蠕变材料、非永磁体的高密度电机是亟待突破的方向 [18] - **球形关节优势**:用一个球形关节可替代三个电机,有助于实现机器人轻量化、缩小整机尺寸并降低成本 [19] - **灵巧手技术路径**:主要有腱绳传动、连杆传动、齿轮传动、软体驱动等六种路径,李元庆个人更看好三指灵巧手方案 [18][20] - **电机核心痛点**:传统永磁体电机存在热衰减问题,温度超过70度会导致磁性减弱、扭矩传导失效,行业正在探索轴向磁通电机等新路线 [19] - **传感器现状**:已有能达到精度要求的产品,但面临成本高、产量未规模化、以及电机发热带来的热干扰等挑战 [20] - **材料成本难题**:例如,抗蠕变材料中尝试的钨丝绳成本高达一米100元人民币,而聚乙烯材料则容易变形拉长 [21] 大规模落地的主要制约 - **成本高昂**:核心部件价格居高不下,如高性能工控电脑需数万元,优质灵巧手价格在1万至5万元人民币之间 [22] - **产品定义模糊**:场景化的产品定义不清晰,例如工厂场景中,人形机器人的投入产出比、工作效率等优势尚未明确 [23] - **技术路径未收敛**:软硬件技术路径结合尚未完全收敛,模型架构与数据的迭代设计也未做好整合 [23] - **供应链配套困难**:由于技术路线不清晰,导致供应链难以针对性地满足电机等部件多样化、定制化的需求 [23] - **市场与运维体系缺失**:产品完整生命周期的市场和运维体系尚未建立,用户价值感知模糊,且缺乏完善的维修服务 [23] 未来战略与产品方向 - **核心发力点**:团队将打造一款面向家庭用户的功能性产品,通过产品落地实现技术落地和数据低成本回收闭环 [3][26] - **家庭场景信息化**:思路是将家庭视为工厂,先通过空间感知技术搭建家庭信息化体系,再结合自动化控制实现操作与导航,最终过渡到智能化 [26] - **未来形态判断**:不认同“通用智能体统一天下”或大量“专用智能体”的路径,更倾向于《机器人总动员》式的多机异构协作模式,即多个各有所长的机器人协同工作 [26][27][28] - **理论支撑**:从自然生态系统和人类社会分工协作的规律推论,多机异构是更稳定、高效的未来形态 [28] 商业模式创新 - **机器人即服务**:RAAS模式已成熟落地,按使用次数或任务量收费,应用于工厂、中央厨房、机器狗送货等场景 [29] - **租赁模式**:按天、月或年租赁机器人,已在闲鱼等平台出现,用于盘活科研设备在商场表演等闲置时段 [29] - **软硬件组合模式**:以极低的硬件成本价作为入口,核心利润来自软件授权和后续OTA升级服务费,例如Tech 1x以2万美元价格让人形机器人进入家庭,旨在回收场景数据 [30] 全球竞争格局与中国优势 - **国际巨头优势**:在算力、芯片、模型算法研究上领先,能虹吸全球人才,初创公司融资规模远大于国内 [31] - **中国公司优势**:集中在能源、硬件制造、市场活力以及强大的工程落地和制造业链条上,能快速将技术转化为产品 [31] - **2026年核心赛点**:对中国公司而言,关键在于产品落地与数据闭环,通过产品进入用户场景沉淀真实数据,反哺模型迭代 [32] - **长期信心**:中国在基础设施和能源建设上全球领先,相信第一款能大面积铺开的具身智能落地产品很可能在中国出现 [32] 对从业者的建议 - **时代机遇**:当前是投身具身智能领域的绝佳时机,赛道处于成长期,技术路线未定,处处是机会 [33] - **行动策略**:建议找到热爱方向,大胆尝试,以极高执行速度快速迭代,遵循“尽早测试、快速试错、更快学习”的原则 [33]
雷军:未来五年至少2000亿研发,加大大模型投入;Anthropic210亿美元购谷歌100万块TPU;罗永浩科技春晚翻车致歉,自曝ADHD引争议|AI周报
AI前线· 2026-01-04 16:56
小米集团战略与汽车业务 - 小米集团董事长雷军宣布未来五年研发投入至少2000亿元人民币,并加大大模型投入[3] - 小米汽车2026年全年交付目标为55万辆,2025年交付量超41万辆,超过原计划的30万辆[3] - 小米汽车工厂投产约20个月交付50万辆车,12月单月交付首次突破5万辆,首款SUV车型YU7上市半年交付超15万辆,是SU7同期交付量的2.3倍[3] - 雷军承认“小字营销”是行业陋习并承诺改正,公司战略市场部副总经理徐洁云解释此举原为满足法律合规要求[3][4] - 雷军新年直播时长超4小时,开播半小时后观看人数突破100万人,核心环节为工程师现场拆解小米YU7[4] 人工智能与算力领域动态 - AI公司Anthropic以210亿美元金额从博通采购近100万块谷歌TPU v7芯片,以部署在自主控制的设施中,此举旨在摆脱对CUDA生态和云厂商的依赖[6] - 智谱华章在港交所启动招股,计划于2026年1月8日上市,发行市值预计达511亿港元,募资规模预计43亿港元,基石投资者认购占比近7成[17] - 腾讯AI Lab副主任、杰出科学家俞栋因个人原因离职,其在腾讯期间负责语音、NLP和数字人技术研发,并对“混元”大模型有多模态贡献[8] - 腾讯在技术工程事业群内部新设AI Infra部、AI Data部等部门以整合研发资源,并引入前OpenAI成员姚顺雨担任首席AI科学家[9] - 传闻快手副总裁、基础大模型及推荐模型负责人周国睿即将离职,其在快手主导了生成式端到端架构OneRec,将推荐系统成本降至原系统的1/10[10] - 快手近两年已有包括技术副总裁张迪在内的多位副总裁级别算法负责人离职[11] - DeepSeek发布新论文提出“流形约束超连接”训练框架,业内普遍认为此举暗示其新一代基座模型DeepSeek V4已完成训练,并预测可能在春节前后发布[12][13] - 在27B参数模型测试中,mHC方法使训练时间仅小幅增加,但复杂推理和阅读理解任务准确率有明显提升[13] 电动汽车行业竞争格局 - 比亚迪2025年全年新能源汽车累计销量达4,602,436辆,同比增长7.73%,首次超越特斯拉成为全球最大电动汽车销售商[7] - 特斯拉2025年全球交付量为163.6万辆,连续两年下滑,主因是美国税收优惠政策变动和全球竞争加剧[7] - 比亚迪在2025年前三季度研发投入达437.5亿元人民币,其核心竞争力在于技术,德意志银行预计其新产品及技术平台将扩大领先优势[7] - 比亚迪在12月下旬下线了第1500万辆新能源汽车[7] 科技巨头并购与投资 - Meta宣布收购人工智能体公司蝴蝶效应,交易金额传闻在40亿至50亿美元左右,这是Meta自成立以来规模第三大的并购案[14][15] - 被收购公司旗下产品Manus从2025年3月底商业化至今,年度经常性收入达到1亿美元,公司发布至今不到10个月[16] - Manus武汉团队基本搬离,核心业务人员已整体迁往新加坡[14] - NVIDIA正式完成以50亿美元收购Intel公司2.147亿股股票的交易,成为Intel主要股东之一,双方将合作定制CPU和集成GPU的SoC处理器[18][19] - 集成RTX GPU的Intel超级SoC处理器备受期待,业界分析产品可能在2026年或2027年面世[20] - 英伟达正就收购以色列AI初创公司AI21 Labs进行深入谈判,交易金额最高可达30亿美元,该公司在2023年融资时估值为14亿美元[20][21] - 英伟达市值已突破4万亿美元,成为全球市值最高企业,并计划在以色列基里亚提夫翁地区新建研发园区,未来可容纳多达1万名员工[21] 产品与生态发展 - 微信官方回应安装包10多年膨胀数百倍,称是因功能增加导致代码、逻辑及资源增多,但安卓版安装包体积在持续下降,用户空间占用超40GB时聊天记录平均占比达70%[5] - 阿里正式开源新一代图像生成模型Qwen-Image-2512,在人物肌肤质感、自然纹理还原与复杂文字渲染上有大幅提升,并能生成漫画风格PPT等复杂图像[30] - 腾讯混元宣布推出并开源翻译模型1.5,包含1.8B和7B两个参数版本,支持33个语种互译及5种民汉/方言,模型端侧可部署[31] - 百度智能云面向消费电子行业推出从芯片、框架到平台的云智一体全栈AI基础设施解决方案[32] - 通用智能机器人企业智平方宣布全球首个模块化具身智能服务空间“智魔方”在北京、深圳同步发布,已推出咖啡、冰淇淋等四大独立功能模块[35] - 宇树科技全球首店于京东MALL开业,公司高管表示人形机器人进入家庭的时刻可能即将到来,其四足机器人Go2已可完成取外卖等简单任务[27] - 京东推出了自营机器人租赁服务,并在全国开设了27家面积在3万至8万平不等的超级体验店,用于展示多场景机器人应用[28] 行业其他热点事件 - OpenAI与前苹果首席设计官Jony Ive合作的AI硬件项目内部代号为“Gumdrop”,供应链评估同步推进三个项目,包括笔形设备和便携音频设备等[25][26] - OpenAI正在改进其AI音频模型,新模型预计在2026年一季度推出,能使回应更自然、更具表现力,并能与用户同步说话及更好处理中断[26] - 罗永浩年度科技创新分享大会延迟48分钟开场,现场3000名购票观众获承诺全额退款,线上观看人数一度突破200万,但发布会内容被质疑为商业带货[22] - 罗永浩会后解释其患有ADHD,发布会从未彩排且演讲为临场发挥,幻灯片常在开场前仍有三成未完成[23]