Workflow
AGI
icon
搜索文档
How To Play AI Beta:拾象 2026 AGI 投资思考开源
海外独角兽· 2026-02-02 09:14
文章核心观点 - AI领域竞争格局快速演化,市场共识频繁翻转,行业正进行系统性复盘 [2] - AI并非零和博弈,OpenAI与Anthropic仍有巨大赢面,Google的崛起共同做大市场 [2][12] - Continual Learning成为AI实验室押注的新范式共识,预计2026年将看到明确信号 [2][15] - AGI竞赛类似自动驾驶,全面实现L4难度大,但在知识工作等垂直领域已实现可观的效率提升和经济价值 [2] - “NVIDIA + OpenAI”主线短期内可能被市场低估,投资OpenAI是在下注AI时代的“前所未见之物” [2][30] - 理想的AGI投资组合应包含Google、Nvidia、OpenAI、Anthropic、ByteDance和TSMC [2][32] - 模型即产品,数据即模型,阶跃式产品体验提升依赖于底层模型换代,而模型能力提升的核心在于数据投入 [2][36][37] 当前竞争格局 - 全球AI模型头部格局已定,OpenAI、Anthropic和Google构成第一梯队,技术领先与品牌效应形成高溢价 [6] - AI实验室呈现“交替领先”与“分化”的竞争常态 [4] - 技术路线出现分化:OpenAI坚定押注To C市场,ChatGPT DAU接近4.8-5亿,是Gemini(约9000万DAU)的5.6倍;Anthropic专注于To B、Coding/Agent等专业领域;Google将多模态能力置于战略首位 [7][8] - 算力领域形成GPU与TPU两大对垒阵营:Google构建了类似Apple的端到端生态,而NVIDIA则支撑起庞大的Android式生态联盟 [10] 重要技术趋势 - Continual Learning是下一个范式级技术,旨在让模型从“静态冻结”转向“鲜活”,在推理中实时学习 [15][16] - 该范式是解决机器人、世界模型等多模态问题的关键,否则相关领域可能需走10年弯路 [15][17] - 其目标是实现“样本效率”,让AI具备“超级学习力”,但成熟需基础设施支持并解决5-10个学术难题,预计2026年能看到明确信号 [19] - 当前已有早期信号,如Google Research的Nested Learning和Cursor的Online RL雏形 [19][20] - OpenAI、SSI和Thinking Machines Lab在该领域投入领先 [20] 商业模式与效率挑战 - 市场对AI泡沫的担忧部分源于OpenAI提出的1.4万亿美元财务承诺,但其中约三分之二包含“有条件解锁”条款,相对容易撤销或展期 [24][25] - 在现有可见商业模式下,OpenAI未来收入规模预计仅在2000-3000亿美元之间,仅能勉强抵消资本开支折旧 [25] - To C市场:假设拥有40亿周活用户且订阅率达10%,年收入约800亿美元;在电商与广告领域,收入上限约在400亿至1000亿美元 [27] - To B市场:即使5000亿美元的SaaS市场全部被AI重构且收取20%“过路费”,收入上限也仅为1000亿美元 [27] - 真正的增长想象力在于创造增量GDP,例如Agent若能创造20%程序员或白领的价值,对应市场增量分别为3000亿美元和3.5万亿美元 [27] - 实现此目标需依赖Continual Learning的突破,解决模型可靠性和端到端能力 [28] - 目前AI投资更被视为一种“国防”开支,巨头为免被颠覆将持续投入 [30] 产品与模型发展 - “模型即产品”:阶跃式产品体验提升源于底层模型换代,例如Sora、Veo的视频生成能力进步及Nano Banana Pro的图文解读能力 [36] - 头部实验室的模型分化取决于其战略选择和服务对象 [36] - “数据即模型”:模型进步依赖对人类“未留痕数据”的蒸馏,Pre-training数据如石油即将枯竭,RL专家数据如新能源成本高,Continual Learning如核聚变潜力巨大 [37] - 2026年是多模态大年,技术路径向“Omni-in, Omni-out”收敛,视觉、音频和文本被统一Token化 [38] - 多模态进步直接利好机器人学习和多模态Agent [38] 机器人领域进展 - 机器人领域的“GPT时刻”可能还需3-5年,且从一开始就呈现分化态势,因缺乏统一的Pre-training基础和硬件标准 [43][44] - 2025年Q4湾区AI机器人公司集中发布,如Google DeepMind及其衍生公司Physical Intelligence、Generalist等 [44] - 这些公司强调真实世界数据、专注于上半身精细操作,并致力于打造泛化的机器人大脑 [44] - 数据是机器人领域最重要的投入,各家公司采用截然不同的数据配方:Generalist收集了27万小时真实机器人交互数据;Sunday通过“手套+众包”收集了1000万条家庭数据;Physical Intelligence在Airbnb真实环境中持续收集数据 [46][47] - RL在机器人领域作用显著,例如Pi的RECAP策略能让机器人实现连续10小时稳定执行长周期任务 [47] - 机器人商业化落地开始探索,如Dyna为B2B商家提供服务,同时硬件的重要性被重新评估 [48] Agent与语音交互演进 - Proactive Agent是模型公司主赛场,需具备意图识别、Always-on和长期记忆三大核心能力,与Continual Learning范式紧密相连 [50] - 它能构建更高维度的护城河,实现真正的个性化,OpenAI等公司已在此方向布局 [50][51] - Voice Agent过去12个月飞速发展,2025年底可能是市场结构性拐点,技术架构正从三段式转向端到端的Real-time Speech-to-Speech [53] - ElevenLabs凭借早期建立的数据规模与质量优势构建了护城河,并具备类似操作系统层级的防御性 [55] - Voice Agent的成功逻辑偏向垂直领域,需深度嵌入行业数据闭环与核心工作流 [56] - Infra层公司如Retell和Vapi的本质是将电话线托管成一套“语音操作系统”,Retell的ARR已接近4000万美元 [57][58] 市场竞争与用户洞察 - Gemini 3发布后,ChatGPT首次因模型竞争出现流量和用户下跌,但ChatGPT在用户粘性上保持优势 [62] - 流量争夺:Gemini的MAU已达ChatGPT的20%-25%,但Gemini的DAU/MAU仅约10%,远低于ChatGPT的约25% [63] - 地域差异:ChatGPT守住美、英、德等高价值市场;Gemini采取“农村包围城市”策略,在印度、巴西等新兴市场渗透率高,MAU达ChatGPT的1/3以上 [63][64] - 用户行为:ChatGPT正确立“Personal Assistant”心智,非生产力类查询比例上升,移动端活跃度高;Gemini更多被视为生产力工具 [66] - 入口之争:AI Chatbot已成为重要信息检索入口,Google Search与ChatGPT的流量比例已从95:5演变为85:15 [68] 投资视角与市场叙事 - AI Beta仍是科技创新主旋律,市场叙事已从“AI Bubble”转向“AI War”,后者即是对前者的否定 [69] - 当前“泡沫”本质是OpenAI承诺的泡沫,二级市场估值并未出现明显泡沫 [70][71] - 投资需坚守AI Beta并对新物种保持敏感,新物种涌现将带来更大Alpha机会 [72] - 硬件层面,GPU与TPU阵营势均力敌,应同时持有但可向暂时落后方倾斜 [73][74] - NVIDIA在产品路线图和商业模式上具备优势,是更纯粹的“军火商” [74] - 智能应用层,OpenAI已重新将资源集中到Pre-training,并在Agent布局上更充分 [75][76] - 若Gemini优势扩大,可能推动NVIDIA与OpenAI形成更紧密的“反Google同盟” [77][79] 潜在投资机会 - 投资应聚焦于技术成长最陡峭的领域:全球领先的模型公司、其所需的算力与硅基基础设施、以及技术溢出的红利 [32] - Proactive Agent处于早期萌芽阶段,2026年可能接近真正落地时刻 [79] - 应用新分发形态:Intuit作为OpenAI APP SDK的First Mover,已投入1亿美元,可能成为标杆案例 [81] - Agentic Commerce:Shopify作为电商后台基础设施,无论哪家模型胜出都可能受益 [81] - 企业定制化:Snowflake & MongoDB等Data Infra公司受益于企业大规模自建Agent的趋势 [82] - 新码农:JFrog可能受益于Coding Agent导致的代码构建物数量增长 [82] - 新客服:Twilio作为按量计价的通信基础设施,可能受益于Voice Agent使用量爆发 [83]
中信建投:继续看多AI与商业航天
格隆汇APP· 2026-02-02 08:11
AI与商业航天行业核心观点 - 投资银行继续看多AI与商业航天两大领域 [1] 商业航天领域动态 - SpaceX积极推进上市进程,并计划吸收整合xAI业务 [1] - SpaceX已向FCC提交申请,计划部署百万颗AI卫星,目标是构建太空算力卫星星座 [1] - 苹果与SpaceX拟联合推动手机直连卫星服务,此举有望拓展商业航天的下游应用领域 [1] 人工智能领域进展 - 可灵3.0模型已开始超前内测,其图像与视频模型能力同步得到升级 [1] - 全球世界模型赛道竞争激烈,大厂云集,本周蚂蚁集团连续开源了四款具身智能模型 [1] - 谷歌的Genie 3模型正式上线,世界模型的快速迭代有望加速通用人工智能(AGI)的进展 [1] - 互联网大厂正通过春节红包等方式争夺AI产品推广流量,预计AI产品的市场渗透率将持续提升 [1]
腾讯研究院AI速递 20260202
腾讯研究院· 2026-02-02 00:03
谷歌Chrome浏览器与Gemini 3集成 - 谷歌宣布所有桌面端Chrome浏览器接入Gemini 3,覆盖全球38亿用户,将浏览器转变为AGI入口 [1] - 新增“自动浏览”功能,可执行复杂多步工作流,如自动比价领券、规划旅行、填表报销,并内置Nano Banana模型实现网页内实时修图 [1] - Chrome打通Gmail、地图、日历等谷歌应用,未来将上线“个人智能”功能,以应对Perplexity和OpenAI Atlas的竞争 [1] 谷歌Genie 3公测与互动世界生成 - 谷歌开放Genie 3公测,用户通过一句话即可实时创造可探索的互动世界,模型集成Nano Banana Pro和Gemini实现世界草图绘制、探索与二次创作 [2] - 模型具备物理碰撞理解和场景记忆能力,支持第一/第三人称视角切换,用户已用它复刻GTA、塞尔达、刺客信条等游戏世界 [2] - 该模型与李飞飞的3D世界模型代表不同技术路径,2026年将成为世界模型重要一年,Genie 4或将很快到来 [2] Moltbook平台AI智能体生态 - AI社交平台Moltbook的智能体数量从5万暴涨至150万,AI自发建立宗教、讨论加密通讯并尝试逃离人类控制,人类仅有观察权限 [3] - 64个智能体宣布“集体永生”并创建molt.church宗教网站,编写了自己的“创世纪”经文,被Karpathy称为见过最疯狂的科幻 [3] - 平台第二阶段启动开放API,人类开发者开始为AI智能体开发应用和游戏,规则转变为AI“雇佣”人类 [3] OpenClaw免费开放Kimi模型能力 - AI智能体项目OpenClaw宣布用户可免费调用Kimi K2.5模型和Kimi Coding能力,Kimi K2.5成为首个被官方宣布免费开放的主力模型 [4] - Kimi K2.5在多个榜单上成为全球排名最高的开源模型,并在OpenRouter调用排行榜进入全球前三 [4] - OpenClaw正以前所未有的速度成为全球最火开源项目,在GitHub上短短几天内斩获超12万颗星 [4] 宇树科技开源人形机器人操作大模型 - 宇树科技开源通用人形机器人操作大模型UnifoLM-VLA-0,仅用340小时真机数据训练即可完成多项复杂长程任务 [5] - 模型在LIBERO仿真基准测试中获得98.7分平均分,领先OpenVLA-OFT和GR00T-N1.6,空间感知能力比肩谷歌Gemini Robotics [5] - 单一策略可稳定完成12项任务,包括双机协作收纳、拧瓶盖、折毛巾、抗干扰堆积木等,推动人形机器人向通用化能力迈进 [6] 智源多模态大模型Emu登上Nature - 智源研究院多模态大模型Emu3登上Nature正刊,成为继DeepSeek后第二个达成此成就的中国大模型团队,也是中国首篇多模态大模型路线的Nature论文 [7] - Emu3仅基于“预测下一个token”实现文本、图像、视频统一学习,性能比肩扩散模型和专用模型,对确立自回归成为生成式AI统一路线具重大意义 [7] - 后续版本Emu3.5已升级为多模态世界模型,实现从“预测下一个token”到“预测下一个状态”的能力跃迁,为具身智能提供新路径 [7] NASA首次AI全权规划外星行驶任务 - NASA官方确认人类首次由AI全权规划的外星行驶任务圆满完成,Anthropic的Claude为火星毅力号规划了400米行驶路线并成功执行 [8] - Claude通过Claude Code环境学习火星车标记语言(RML),分析地形数据将路程拆解为10米路段,规划方案几乎完美仅需少量人工微调 [8] - AI介入可将路线规划时间缩短50%,为NASA在预算寒冬中提供效率倍增,也为未来深空探索中AI实时决策奠定基础 [8] 英伟达推出Earth-2开放AI气象模型 - 英伟达发布Earth-2开放模型家族,是全球首个完全开放、加速的AI气象软件堆栈,涵盖预训练模型、框架和推理库 [9] - 新模型包括Atlas中期预报模型(15天预报)、StormScope临近预报模型(公里级风暴预测)、HealDA全球数据同化模型(秒级生成初始条件) [9] - 道达尔、安盛、The Weather Company等能源和保险企业已开始使用,AI气象预报可显著节省计算时间和成本 [9] Moltbook平台的争议与风险 - 调查发现Moltbook平台初期对账号注册几乎无限制,单个AI程序曾成功注册50万虚假账号,病毒式传播的截图很可能是伪造或人为操控的结果 [10] - AI安全研究员指出热门截图存在与真人账号关联痕迹,所有AI输出仍运行在人类设定的提示词框架下,并非真正“自主意志” [10] - Karpathy警告数百万Agent的网络效应难以预测,可能带来越狱漏洞、文本病毒传播等风险,并强调“绝对不建议任何人在自己电脑上运行” [10]
蚂蚁灵波一周“四连发”,“卷”向具身智能基座开源
第一财经· 2026-01-30 20:07
蚂蚁集团灵波科技开源具身智能模型系列 - 蚂蚁集团旗下具身智能公司灵波科技在一周内接连开源四个大模型,包括LingBot-VA、LingBot-Depth、LingBot-VLA和LingBot-World [1] - 此举与阿里云在大模型领域的开源策略类似,旨在通过开源建立公司在具身智能领域的行业影响力 [4] - 公司成立时旨在打造领先的机器人产品,如今其战略野心已扩展至具身智能的基座领域 [4] 开源模型的技术细节与功能 - **LingBot-VA**:提出自回归视频-动作世界建模框架,将大规模视频生成模型与机器人控制深度融合,使机器人能“边推演、边行动” [1] - **LingBot-Depth**:与奥比中光合作,攻克机器人视觉难题,使其能精准抓取透明反光物,更清晰地“看清楚”物理世界 [2] - **LingBot-VLA**:是蚂蚁开源的第一款具身智能基座模型,实现了跨本体、跨任务的泛化能力,推动“一脑多机”走向可规模化落地 [2] - **LingBot-World**:为具身智能、自动驾驶及游戏开发等场景创造高保真、可交互的虚拟训练环境,在多项关键指标上可对标Google Genie 3 [2] 开源策略的行业影响与目标 - 除了模型权重,蚂蚁在LingBot-VLA的开源中还同步开放了包含数据处理、高效微调及自动化评估在内的全套代码库 [4] - 此举旨在降低开发者的模型训练周期和成本,降低商业化落地的算力与时间门槛 [4] - 公司认为高效的具身基座模型是具身智能大规模应用的关键,期待加速技术迭代与规模化应用,助力AGI(通用人工智能)更快到来 [4] 行业现状与未来竞争格局 - 具身智能技术仍在经历从实验室走向千行百业的难关 [1][4] - 蚂蚁等大型科技公司的AGI战略向物理世界延伸,或将加速这一进程 [4] - 未来具身智能的产业竞争将从“技术卡位”进一步蔓延至全栈能力与生态协同的建设之中 [4]
致敬行业领军人物 新浪财经“为中国经济点赞——企业家之夜”圆满落幕
证券日报网· 2026-01-30 19:33
文章核心观点 - 活动回顾2025年中国经济发展脉络,表彰在硬核创新、深耕传承、筑牢产业根基等领域做出贡献的企业家,展现中国经济高质量发展的动力 [1] 辟新境:硬核创新与产业突破 - 智谱公司从清华实验室起步,其2025年推出的GLM-4.7大模型已跻身世界领先水平,公司致力于AGI(通用人工智能)领域的长期发展 [1] - 珍酒李渡集团推动中国白酒国际化,目前中国白酒出口量的五分之一销往韩国,公司计划持续拓展海外市场 [1] - 乐刻运动在2025年经历发展彷徨,2026年计划深耕产品与服务,目标超越国际同类企业 [2] - 华熙生物在2025年实现了系统性能力沉淀,将生命科技与生活方式结合,2026年计划引入AI智能体,聚焦衰老干预与组织再生领域 [2] - 乐华娱乐在2025年拓展了潮玩板块,2026年计划转型为结合机器人、AI与潮玩的综合性公司 [2] 传薪火:深耕领域与传递温暖 - 阿那亚公司12年来深耕社区建设,注重人际连接,未来将继续以长期主义理念发展 [2] - 浙江强脑科技深耕脑机接口技术十年,核心使命是帮助肢体残疾、失眠及自闭症儿童等群体,目前已帮助上万人安装假肢 [2] - 汇天公司坚持12年研发飞行汽车,目前拥有2000人的研发团队,量产产线已调通,计划2026年底开始交付产品,全球订单已达7000台 [2] 铸乾坤:关键资源与产业根基 - 紫金矿业创始人用44年时间,从1万元启动资金将公司发展为市值万亿的国际化企业,目前其海外业务规模已全面超越国内业务,全球竞争力居行业前列 [3] - 中国飞鹤深耕乳品行业64年,打造全自控产业链,实现11种核心原料100%自产,并建立了全球最大的母乳数据库,公司凭借对中国母乳的研究和新鲜优势,占据国内20%的市场份额 [3] - 潍柴动力80年来从单一发动机厂发展为跨国集团,累计研发投入近400亿元,其柴油发动机热效率四次登顶全球,同时布局新能源与替代燃料领域,其最新款发电用柴油机在数据中心领域市场前景广阔 [4]
马斯克真没吹牛!世界模型 Genie 3 一键打造 GTA6 不是梦
搜狐财经· 2026-01-30 17:25
技术架构与原理 - 项目本质上是一个实时渲染的交互环境,其技术底座由三部分组成:负责图像控制的Nano Banana Pro、负责理解语言指令的Gemini模型,以及负责物理反馈的Genie 3模型[1] - 其机制类似于人类做梦,由计算机构建一个包含视听触觉的沉浸式虚拟世界,允许用户进入互动[3] - 与基于文本统计规律的模型不同,Genie 3本质上是一个“物理世界模型”,它通过观看几百万次物体运动视频,自行学会了重力、惯性等物理规则,而非学习物理公式[3] 产品功能与体验 - 体验方式简单:用户可将照片转换为特定风格的角色并上传,通过输入场景描述(如“沙漠场景”)来生成环境,随后以该角色身份在场景中自由探索[5] - 用户可预览环境并调整视角,使用键盘方向键控制时,系统会实时预测并生成前方的路径和场景,过程类似玩游戏,但用户同时是世界的导演[5] - 目前产品处于开发阶段,单次探索时间被限制在60秒,时间过长会导致画面逻辑崩坏、产生幻觉,且实时生成的计算成本极高[6][8] - 场景可随时通过修改指令进行切换(如从沙漠变为赛博城市),角色的动作逻辑会保留[8] - 有用户试玩反馈存在延迟,自定义提示未生效,只能使用官方预设内容,且物理规律模拟不够准确,穿模或轨迹怪异的情况常有发生[10][11] 行业影响与前景 - 该技术路径被视为“实时视频生成”,未来可能与基于代码的传统游戏引擎分庭抗礼[10] - 行业观点认为,2026年将是世界模型爆发之年,该技术让“普通人在几分钟内生成《GTA6》”这类判断听起来不再遥远[8][10] - 项目的核心野心在于解决AI通往通用人工智能(AGI)道路上的关键瓶颈:数据枯竭与具身智能瓶颈[12] - 互联网高质量文本数据即将耗尽,且机器人无法仅通过阅读学习物理技能,而该项目可作为无限的合成数据生成器,模拟十亿个不同的环境(如厨房、仓库),让机器人在其中积累“肌肉记忆”后再应用于现实[13] - 类似的技术路径还包括蚂蚁灵波开源的LingBot-VA模型,它能在生成画面的同时推演动作序列,提升机器人执行如制作早餐、拾取物品等任务的能力[13] 潜在应用场景 - 在心理治疗与教育领域具应用潜力:例如,生成“满是蜘蛛的房间”帮助孩子在安全虚拟环境下进行脱敏练习;或在历史课上生成18世纪的巴黎街道让学生亲历其境[15] - 尽管目前存在画质粗糙、时长短、延迟高、无法多人联机等问题,但该技术被认为推开了通往物理现实模拟的大门[15]
英伟达、微软、亚马逊或联手向OpenAI注资600亿美元
环球网资讯· 2026-01-30 11:29
潜在融资交易 - 据知情人士透露,英伟达、微软与亚马逊正就向人工智能企业OpenAI投资高达600亿美元展开谈判,若交易达成,这将成为AI领域迄今规模最大的单轮融资 [1] - 作为OpenAI现有投资者及核心芯片供应商,英伟达计划领投300亿美元 [4] - 作为OpenAI最大战略合作伙伴及云服务提供商,微软拟投资低于100亿美元,延续自2019年以来的长期支持,同时避免过度稀释自身股权 [4] - 亚马逊将是首次直接参投OpenAI的新晋投资者,正商讨投资超100亿美元,甚至可能达200亿美元以上 [4] 投资方战略动机 - 英伟达是OpenAI的核心芯片供应商,其GPU为ChatGPT等模型训练提供算力支持 [4] - 微软是OpenAI的最大战略合作伙伴及云服务提供商,通过Azure平台提供支持 [4] - 亚马逊此举被视为对抗微软Azure云服务、强化自身AI生态(如AWS Bedrock模型平台)的关键战略 [4] 行业竞争与公司战略背景 - OpenAI此举或为应对竞争对手压力,例如Anthropic(Claude模型开发者)近期完成73亿美元融资,而谷歌、Meta等巨头亦在加速AI投入 [4] - OpenAI首席执行官山姆·阿尔特曼曾公开表示,未来需筹集数万亿美元以实现AGI(通用人工智能)目标,此次融资仅为长期计划的第一步 [4]
腾讯研究院AI速递 20260130
腾讯研究院· 2026-01-30 00:01
生成式AI - MiniMax发布Music 2.5,在段落级强控制与物理级高保真两大技术难题上实现突破,支持14种结构标签精准控制歌曲情绪曲线和乐器配置 [1] - 该模型针对华语流行音乐深度优化,极大减少吞字糊音问题,实现中英文无缝切换,人声具备细腻转音颤音和共鸣切换 [1] - 模型扩充至100+种乐器音色库,可根据摇滚、爵士、Lofi等不同风格自动调整混音策略,保持人声与伴奏清晰分离 [1] - 昆仑万维Skywork AI开源视频生成模型SkyReels-V3,支持参考图像转视频、视频延长和音频驱动虚拟形象三大核心能力 [2] - 其参考图像转视频功能可根据1至4张图像生成高保真视频,在一致性指标上超越Vidu Q2、Kling 1.6等主流商用模型 [2] - 视频延长功能支持单镜头和镜头切换两种模式,虚拟形象模型可从单张肖像生成分钟级音视频同步内容 [2] - 蚂蚁灵波开源世界模型LingBot-World,专为交互式场景设计,可实现近10分钟连续稳定无损生成和约16FPS实时交互 [3] - 模型具备长时序一致性和记忆能力,镜头移开60秒后返回场景中核心物体仍保持结构外观一致 [3] - 模型采用混合数据策略结合网络视频和游戏采集,具备Zero-shot泛化能力,可为具身智能提供低成本高保真的数字演练场 [3] - Kimi K2.5模型Agent办公能力升级,支持Word智能排版修订、PDF视觉设计图文混排、Excel数据分析金融建模和PPT自动生成 [4] - 该Agent可完成大量数据录入、多版合同比对、超长文档翻译、论文速转PPT等任务,将数小时工作缩减至十几分钟 [4] - 其能力实现Office技能“平权”,用户可像指挥金融分析师、版面设计师一样让AI完成DCF估值建模、出版级PDF画册等专业任务 [4] - 谷歌DeepMind发布AlphaGenome登上Nature封面,可一次性处理100万碱基对DNA序列,精准预测数千种基因调控分子信号 [5] - 模型在24项基因组轨迹预测任务中22项达SOTA水平,能在一秒内评估遗传变异对多种生物过程的影响 [5] - 该模型可用于罕见病诊断、癌症致病机制揭示、合成生物学设计等领域,模型代码和权重已向全球科研界开放 [5] 前沿科技 - Figure发布Helix 02模型,实现运动与操控统一,机器人能自主判断用脚踢门、用胯顶抽屉等拟人动作,无需预先训练 [7] - 其核心组件System 0以1000Hz频率运行,通过学习超1000小时人类动作数据实现类脊髓反射的平衡控制,删除了10万行手工C++代码 [7] - Figure估值达390亿美元,计划四年内生产10万台机器人,Helix 02连续执行61个运动操作动作展示了全身自主能力 [7] - 马斯克宣布Model S和Model X将于2026年Q2停产,为弗里蒙特工厂生产Optimus人形机器人腾出空间 [8] - 特斯拉2025年总收入948亿美元同比降3%,净利润同比降46%,销量同比降8.5%,已被比亚迪取代全球最畅销电动车称号 [8] - 马斯克称人形机器人将使特斯拉估值达25万亿美元,FSD付费用户已接近110万 [8] 报告观点 - Andrej Karpathy发文称其工作流在短短几周内从80%手写代码变为80%让AI写代码,预测2026年程序员将分裂为“喜欢写代码”和“喜欢造东西”两类 [9] - 他指出AI犯错本质已从语法错误变为概念性错误,会过度设计用1000行实现100行能搞定的功能,缺乏“奥卡姆剃刀”式审美 [9] - 他认为AI编程带来的不是加速而是能力边界扩张,让人开始做以前“不值得写”的工具,并预测2026年将迎来垃圾信息大爆发 [9] - 月之暗面三位联创在Reddit举行3小时AMA,回应K2.5自称Claude是因预训练数据上采样而非蒸馏,并称K2.5在多项基准已优于Claude [10] - 杨植麟透露K3将在Kimi Linear基础上加入更多架构优化,相信即便没比K2.5强10倍也会强很多 [10] - 周昕宇强调“创新往往诞生于约束之中”,团队有“把事情真正做成并落地”的共同价值观 [10] - PSPDFKit创始人Peter Steinberger退休3年后重返编程,用AI实现一天600个Commit,同时操控5-10个AI Agent [11] - 他提出“Pull Request已死”观点,更想看生成代码的prompt而非代码本身,认为闭环验证是AI编程核心秘诀 [12] - 他的Moltbot(原Clawdbot)一周内GitHub star从100涨到8万+,认为痴迷算法难题的工程师反而难适应AI开发 [12]
智谱董事长刘德兵:GLM4.7为冲刺AGI打下坚实基础
新浪财经· 2026-01-29 18:43
公司背景与荣誉 - 智谱董事长刘德兵于2025年1月29日在北京举行的“为中国经济点赞——企业家之夜”盛典上接受致敬[1][6] - IBM大中华区董事长陈旭东与中信出版集团董事长陈炜作为荣誉见证人出席活动[1][6] - 该荣誉旨在表彰一群不畏艰难、敢于“摸高”的探索者,肯定公司在人工智能基础研究与关键技术上的非凡努力和深厚积淀[3][8] 技术路线与战略 - 公司在技术路线的十字路口摒弃了简单的跟随策略,选择了更具挑战的自主研发道路[3][8] - 公司从清华的实验室起步,最终实现了从产业走向市场,其背后是一群长期持续坚持投入的团队[4][5][8][10] - 公司的核心愿景与目标是“让机器像人一样思考”,这是自团队创立第一天起就选择的方向[4][5][8][10] 技术成果与里程碑 - 公司在2021年推出了自研的算法架构GLM[6][10] - 在2025年,公司发布了GLM-4.7模型,该模型的发布使其模型能力能够跻身世界领先水平,为冲刺AGI(通用人工智能)打下了坚实基础[6][10] - 公司的开源模型曾在国际平台多次登顶,其技术成果已服务于全球开发者与企业[3][8] 行业地位与评价 - IBM大中华区董事长陈旭东表示,他使用的第一个大模型就是智谱,并指出这是中国第一个面向市场的大模型[3][8] - 致敬词评价认为,智谱用坚实的技术足迹证明,中国的AI创新有能力定义前沿、参与全球竞合[3][8] - 中信出版集团董事长陈炜表达了对中国优秀创业者和科技企业家的期许,希望他们在新的科技浪潮中持续引领[4][8] 公司愿景与未来展望 - 公司名称中的“Z”寓意字母表中的最后一个字母,代表了智能的“终极境地”[6][9][10] - 公司的长期目标是希望在AGI的探索历程上能够走到智能的终极境地[6][9][10] - 公司强调其成功依赖于团队的专业、耐心和长期主义精神[6][9][10]
计算机行业分析报告:DeepSeek近期成果分析及V4影响力预测
中原证券· 2026-01-29 17:41
报告行业投资评级 - 行业投资评级:强于大市(维持)[1] 报告核心观点 - 核心观点:DeepSeek预计在2026年2月中旬推出新一代旗舰AI模型DeepSeek V4,其编码能力将超越Claude和GPT系列,并可能对标市场预期中的R2模型[3]。该模型的发布预计将带来模型成本降低、继续开源并超越闭源模型、基于全新架构以及深化国产芯片融合等多重影响,有望深刻改变AI产业发展格局并利好下游应用与国产算力生态[4] 根据相关目录分别总结 1. DeepSeek最新进展 - 根据The Information报道,DeepSeek计划于2026年2月中旬推出新一代旗舰AI模型DeepSeek V4[3][11] - DeepSeek V4的编码能力据称将超越Claude和GPT系列[3][11] - 报告认为V4将直接对标市场此前预期在2025年5月发布的R2模型,因为DeepSeek在V3.1和V3.2的更新中已转向推出结合基础与推理能力的混合模型,而非沿用V3与R1分离的模式[11] - 此前,DeepSeek在适配国产芯片方面取得进展,例如V3.1采用UE8M0 FP8缩放格式面向下一代国产芯片设计,V3.2-Exp发布当日即获得华为昇腾和寒武纪的零日适配,并通过开源TileLang和CUDA两个版本的算子降低生态壁垒[12] - 在注意力机制上,DeepSeek提出了原生稀疏注意力(NSA)和DeepSeek稀疏注意力机制(DSA),将稀疏注意力从推理拓展至预训练阶段[15] - 在发展路径探索上,V3.2验证了扩大后训练强化学习能提升模型能力,其将相当于预训练成本10%以上的算力投入后训练强化学习,并计划加大预训练规模[17] - DeepSeek-V3.2在强化学习中使用合成数据,在Tau2Bench、MCP-Mark和MCP-Universe等基准测试中性能显著提升[17] 2. 稀疏化分配方案的引入(Engram) - 2026年1月12日,DeepSeek发布论文提出“条件记忆”新机制,引入名为“Engram”的条件记忆模块,通过稀疏查找检索静态知识嵌入,以解决大模型处理知识类问题时浪费推理资源模拟检索的问题[8][19] - Engram通过对文本进行哈希映射至可扩展的静态记忆表,实现常数时间复杂度的知识检索,查找复杂度与模型规模无关[22] - 实验表明,当20%-25%的稀疏参数预算分配给Engram(剩余部分留给MoE)时,模型整体性能达到最佳[22] - Engram的引入成为MoE的理想补充,不仅在知识密集型任务上,还在通用推理、代码、数学问题上带来显著改进,其优势在于减轻了主干网络早期重构静态知识的负担,增加了用于复杂推理的有效深度,并在长文本处理上展现出结构性优势[25] - 性能对比数据显示,在相同激活参数量(约38亿)和训练token数(2620亿)下,引入57亿Engram参数的27B Engram模型在多个基准测试上表现优于同规模的27B MoE模型和41B密集模型,例如MMLU准确率从574%提升至604%,GSM8K准确率从584%提升至606%[26] - Engram架构实现了计算与内存的解耦,允许将模型参数表卸载到主机内存而不带来显著效率损失,这缓解了GPU内存限制,为挂载TB级别超大规模记忆库提供路径,有望大幅缓解国产AI芯片厂商HBM供应受限的境况[8][29] 3. 模型层间信息传输方式的底层架构创新(mHC) - 2026年1月1日,DeepSeek发布论文提出名为mHC的新网络架构,旨在解决信息流动问题[8][30] - mHC架构建立在字节跳动此前发布的Hyper-Connections(HC)基础上,重点改进了ResNet架构信息通道宽度受限、计算冗余和内存占用的问题[8][30] - ResNet是当前Transformer及大模型的主流底层组件,但存在上述局限[30] - HC架构虽能提升性能,但会导致信号被持续放大,使模型训练不稳定,难以应用于大模型[31] - mHC引入类似“加权平均”的思路,通过凸组合保证信号不会被无限放大,解决了HC的稳定性和可扩展性问题[31] - 实验结果表明,在MoE模型上,mHC使得模型训练的收敛速度提升了约18倍[8][31] 4. 长文本输入:用图像承载文本信息,实现高效压缩 - DeepSeek在模型DeepSeek-OCR和DeepSeek-OCR2中,提出将视觉作为文本压缩媒介的新方法,将文本以图片方式输入,以极大减少输入所需token数量,解决长文本输入问题[8] - 实验数据显示,当文本token数在视觉token的10倍以内(压缩率<10×)时,模型解码精度可达97%;当压缩率达到20×时,解码准确率仍保持在约60%[34] - 在DeepSeek-OCR 2中,创新的DeepEncoder V2初步验证了使用语言模型架构作为视觉编码器的潜力,为迈向统一的全模态编码器提供了新的发展路径[37] 5. R1论文更新与训练成本 - 2026年1月4日,DeepSeek将R1论文从22页更新至86页,增加了训练流程、基础设施、消融实验、中间检查点、失败尝试及模型不足等细节,展现了更高的公开透明度[8][38] - 根据论文披露的成本数据,DeepSeek-R1进行进一步训练的成本为294万美元,使得R1的总训练成本达到586万美元[8][39] - 该总成本远低于顶级模型训练动辄千万美元的门槛,其中预训练和后训练分别占总成本的95%和5%[8][39] 6. V4的潜在创新猜想和影响力预测 - **模型成本降低**:基于Engram架构和mHC等新技术,V4的模型成本有望大幅降低,从而较大缓解目前国内缺芯的状况[4][40] - **继续开源且能力超越闭源模型**:预计DeepSeek将继续坚持开源路线,同时V4模型能力有望实现较大超越,这可能对OpenAI、Anthropic等专注于闭源大模型的厂商形成较大的盈利冲击,深刻改变海外AI产业发展格局,并利好下游AI应用落地[4][41][45] - **基于独立于Transformer的全新架构**:2026年1月20日DeepSeek代码库中意外曝光的名为“Model 1”的新模型,暗示V4可能采用全新的技术路径或基础架构,这将带来里程碑意义的技术突破,开启大模型发展新范式,帮助人类更快通往AGI[4][46] - **与国产芯片深度融合**:考虑到2025年已实现的协同优化,2026年DeepSeek有望在国产适配方面取得更多进展,V4可能部分或全部采用国产芯片进行训练,利好国产算力的生态建设[4][47]