AGI
搜索文档
马斯克真没吹牛!世界模型 Genie 3 一键打造 GTA6 不是梦
搜狐财经· 2026-01-30 17:25
技术架构与原理 - 项目本质上是一个实时渲染的交互环境,其技术底座由三部分组成:负责图像控制的Nano Banana Pro、负责理解语言指令的Gemini模型,以及负责物理反馈的Genie 3模型[1] - 其机制类似于人类做梦,由计算机构建一个包含视听触觉的沉浸式虚拟世界,允许用户进入互动[3] - 与基于文本统计规律的模型不同,Genie 3本质上是一个“物理世界模型”,它通过观看几百万次物体运动视频,自行学会了重力、惯性等物理规则,而非学习物理公式[3] 产品功能与体验 - 体验方式简单:用户可将照片转换为特定风格的角色并上传,通过输入场景描述(如“沙漠场景”)来生成环境,随后以该角色身份在场景中自由探索[5] - 用户可预览环境并调整视角,使用键盘方向键控制时,系统会实时预测并生成前方的路径和场景,过程类似玩游戏,但用户同时是世界的导演[5] - 目前产品处于开发阶段,单次探索时间被限制在60秒,时间过长会导致画面逻辑崩坏、产生幻觉,且实时生成的计算成本极高[6][8] - 场景可随时通过修改指令进行切换(如从沙漠变为赛博城市),角色的动作逻辑会保留[8] - 有用户试玩反馈存在延迟,自定义提示未生效,只能使用官方预设内容,且物理规律模拟不够准确,穿模或轨迹怪异的情况常有发生[10][11] 行业影响与前景 - 该技术路径被视为“实时视频生成”,未来可能与基于代码的传统游戏引擎分庭抗礼[10] - 行业观点认为,2026年将是世界模型爆发之年,该技术让“普通人在几分钟内生成《GTA6》”这类判断听起来不再遥远[8][10] - 项目的核心野心在于解决AI通往通用人工智能(AGI)道路上的关键瓶颈:数据枯竭与具身智能瓶颈[12] - 互联网高质量文本数据即将耗尽,且机器人无法仅通过阅读学习物理技能,而该项目可作为无限的合成数据生成器,模拟十亿个不同的环境(如厨房、仓库),让机器人在其中积累“肌肉记忆”后再应用于现实[13] - 类似的技术路径还包括蚂蚁灵波开源的LingBot-VA模型,它能在生成画面的同时推演动作序列,提升机器人执行如制作早餐、拾取物品等任务的能力[13] 潜在应用场景 - 在心理治疗与教育领域具应用潜力:例如,生成“满是蜘蛛的房间”帮助孩子在安全虚拟环境下进行脱敏练习;或在历史课上生成18世纪的巴黎街道让学生亲历其境[15] - 尽管目前存在画质粗糙、时长短、延迟高、无法多人联机等问题,但该技术被认为推开了通往物理现实模拟的大门[15]
英伟达、微软、亚马逊或联手向OpenAI注资600亿美元
环球网资讯· 2026-01-30 11:29
潜在融资交易 - 据知情人士透露,英伟达、微软与亚马逊正就向人工智能企业OpenAI投资高达600亿美元展开谈判,若交易达成,这将成为AI领域迄今规模最大的单轮融资 [1] - 作为OpenAI现有投资者及核心芯片供应商,英伟达计划领投300亿美元 [4] - 作为OpenAI最大战略合作伙伴及云服务提供商,微软拟投资低于100亿美元,延续自2019年以来的长期支持,同时避免过度稀释自身股权 [4] - 亚马逊将是首次直接参投OpenAI的新晋投资者,正商讨投资超100亿美元,甚至可能达200亿美元以上 [4] 投资方战略动机 - 英伟达是OpenAI的核心芯片供应商,其GPU为ChatGPT等模型训练提供算力支持 [4] - 微软是OpenAI的最大战略合作伙伴及云服务提供商,通过Azure平台提供支持 [4] - 亚马逊此举被视为对抗微软Azure云服务、强化自身AI生态(如AWS Bedrock模型平台)的关键战略 [4] 行业竞争与公司战略背景 - OpenAI此举或为应对竞争对手压力,例如Anthropic(Claude模型开发者)近期完成73亿美元融资,而谷歌、Meta等巨头亦在加速AI投入 [4] - OpenAI首席执行官山姆·阿尔特曼曾公开表示,未来需筹集数万亿美元以实现AGI(通用人工智能)目标,此次融资仅为长期计划的第一步 [4]
腾讯研究院AI速递 20260130
腾讯研究院· 2026-01-30 00:01
生成式AI - MiniMax发布Music 2.5,在段落级强控制与物理级高保真两大技术难题上实现突破,支持14种结构标签精准控制歌曲情绪曲线和乐器配置 [1] - 该模型针对华语流行音乐深度优化,极大减少吞字糊音问题,实现中英文无缝切换,人声具备细腻转音颤音和共鸣切换 [1] - 模型扩充至100+种乐器音色库,可根据摇滚、爵士、Lofi等不同风格自动调整混音策略,保持人声与伴奏清晰分离 [1] - 昆仑万维Skywork AI开源视频生成模型SkyReels-V3,支持参考图像转视频、视频延长和音频驱动虚拟形象三大核心能力 [2] - 其参考图像转视频功能可根据1至4张图像生成高保真视频,在一致性指标上超越Vidu Q2、Kling 1.6等主流商用模型 [2] - 视频延长功能支持单镜头和镜头切换两种模式,虚拟形象模型可从单张肖像生成分钟级音视频同步内容 [2] - 蚂蚁灵波开源世界模型LingBot-World,专为交互式场景设计,可实现近10分钟连续稳定无损生成和约16FPS实时交互 [3] - 模型具备长时序一致性和记忆能力,镜头移开60秒后返回场景中核心物体仍保持结构外观一致 [3] - 模型采用混合数据策略结合网络视频和游戏采集,具备Zero-shot泛化能力,可为具身智能提供低成本高保真的数字演练场 [3] - Kimi K2.5模型Agent办公能力升级,支持Word智能排版修订、PDF视觉设计图文混排、Excel数据分析金融建模和PPT自动生成 [4] - 该Agent可完成大量数据录入、多版合同比对、超长文档翻译、论文速转PPT等任务,将数小时工作缩减至十几分钟 [4] - 其能力实现Office技能“平权”,用户可像指挥金融分析师、版面设计师一样让AI完成DCF估值建模、出版级PDF画册等专业任务 [4] - 谷歌DeepMind发布AlphaGenome登上Nature封面,可一次性处理100万碱基对DNA序列,精准预测数千种基因调控分子信号 [5] - 模型在24项基因组轨迹预测任务中22项达SOTA水平,能在一秒内评估遗传变异对多种生物过程的影响 [5] - 该模型可用于罕见病诊断、癌症致病机制揭示、合成生物学设计等领域,模型代码和权重已向全球科研界开放 [5] 前沿科技 - Figure发布Helix 02模型,实现运动与操控统一,机器人能自主判断用脚踢门、用胯顶抽屉等拟人动作,无需预先训练 [7] - 其核心组件System 0以1000Hz频率运行,通过学习超1000小时人类动作数据实现类脊髓反射的平衡控制,删除了10万行手工C++代码 [7] - Figure估值达390亿美元,计划四年内生产10万台机器人,Helix 02连续执行61个运动操作动作展示了全身自主能力 [7] - 马斯克宣布Model S和Model X将于2026年Q2停产,为弗里蒙特工厂生产Optimus人形机器人腾出空间 [8] - 特斯拉2025年总收入948亿美元同比降3%,净利润同比降46%,销量同比降8.5%,已被比亚迪取代全球最畅销电动车称号 [8] - 马斯克称人形机器人将使特斯拉估值达25万亿美元,FSD付费用户已接近110万 [8] 报告观点 - Andrej Karpathy发文称其工作流在短短几周内从80%手写代码变为80%让AI写代码,预测2026年程序员将分裂为“喜欢写代码”和“喜欢造东西”两类 [9] - 他指出AI犯错本质已从语法错误变为概念性错误,会过度设计用1000行实现100行能搞定的功能,缺乏“奥卡姆剃刀”式审美 [9] - 他认为AI编程带来的不是加速而是能力边界扩张,让人开始做以前“不值得写”的工具,并预测2026年将迎来垃圾信息大爆发 [9] - 月之暗面三位联创在Reddit举行3小时AMA,回应K2.5自称Claude是因预训练数据上采样而非蒸馏,并称K2.5在多项基准已优于Claude [10] - 杨植麟透露K3将在Kimi Linear基础上加入更多架构优化,相信即便没比K2.5强10倍也会强很多 [10] - 周昕宇强调“创新往往诞生于约束之中”,团队有“把事情真正做成并落地”的共同价值观 [10] - PSPDFKit创始人Peter Steinberger退休3年后重返编程,用AI实现一天600个Commit,同时操控5-10个AI Agent [11] - 他提出“Pull Request已死”观点,更想看生成代码的prompt而非代码本身,认为闭环验证是AI编程核心秘诀 [12] - 他的Moltbot(原Clawdbot)一周内GitHub star从100涨到8万+,认为痴迷算法难题的工程师反而难适应AI开发 [12]
智谱董事长刘德兵:GLM4.7为冲刺AGI打下坚实基础
新浪财经· 2026-01-29 18:43
公司背景与荣誉 - 智谱董事长刘德兵于2025年1月29日在北京举行的“为中国经济点赞——企业家之夜”盛典上接受致敬[1][6] - IBM大中华区董事长陈旭东与中信出版集团董事长陈炜作为荣誉见证人出席活动[1][6] - 该荣誉旨在表彰一群不畏艰难、敢于“摸高”的探索者,肯定公司在人工智能基础研究与关键技术上的非凡努力和深厚积淀[3][8] 技术路线与战略 - 公司在技术路线的十字路口摒弃了简单的跟随策略,选择了更具挑战的自主研发道路[3][8] - 公司从清华的实验室起步,最终实现了从产业走向市场,其背后是一群长期持续坚持投入的团队[4][5][8][10] - 公司的核心愿景与目标是“让机器像人一样思考”,这是自团队创立第一天起就选择的方向[4][5][8][10] 技术成果与里程碑 - 公司在2021年推出了自研的算法架构GLM[6][10] - 在2025年,公司发布了GLM-4.7模型,该模型的发布使其模型能力能够跻身世界领先水平,为冲刺AGI(通用人工智能)打下了坚实基础[6][10] - 公司的开源模型曾在国际平台多次登顶,其技术成果已服务于全球开发者与企业[3][8] 行业地位与评价 - IBM大中华区董事长陈旭东表示,他使用的第一个大模型就是智谱,并指出这是中国第一个面向市场的大模型[3][8] - 致敬词评价认为,智谱用坚实的技术足迹证明,中国的AI创新有能力定义前沿、参与全球竞合[3][8] - 中信出版集团董事长陈炜表达了对中国优秀创业者和科技企业家的期许,希望他们在新的科技浪潮中持续引领[4][8] 公司愿景与未来展望 - 公司名称中的“Z”寓意字母表中的最后一个字母,代表了智能的“终极境地”[6][9][10] - 公司的长期目标是希望在AGI的探索历程上能够走到智能的终极境地[6][9][10] - 公司强调其成功依赖于团队的专业、耐心和长期主义精神[6][9][10]
计算机行业分析报告:DeepSeek近期成果分析及V4影响力预测
中原证券· 2026-01-29 17:41
报告行业投资评级 - 行业投资评级:强于大市(维持)[1] 报告核心观点 - 核心观点:DeepSeek预计在2026年2月中旬推出新一代旗舰AI模型DeepSeek V4,其编码能力将超越Claude和GPT系列,并可能对标市场预期中的R2模型[3]。该模型的发布预计将带来模型成本降低、继续开源并超越闭源模型、基于全新架构以及深化国产芯片融合等多重影响,有望深刻改变AI产业发展格局并利好下游应用与国产算力生态[4] 根据相关目录分别总结 1. DeepSeek最新进展 - 根据The Information报道,DeepSeek计划于2026年2月中旬推出新一代旗舰AI模型DeepSeek V4[3][11] - DeepSeek V4的编码能力据称将超越Claude和GPT系列[3][11] - 报告认为V4将直接对标市场此前预期在2025年5月发布的R2模型,因为DeepSeek在V3.1和V3.2的更新中已转向推出结合基础与推理能力的混合模型,而非沿用V3与R1分离的模式[11] - 此前,DeepSeek在适配国产芯片方面取得进展,例如V3.1采用UE8M0 FP8缩放格式面向下一代国产芯片设计,V3.2-Exp发布当日即获得华为昇腾和寒武纪的零日适配,并通过开源TileLang和CUDA两个版本的算子降低生态壁垒[12] - 在注意力机制上,DeepSeek提出了原生稀疏注意力(NSA)和DeepSeek稀疏注意力机制(DSA),将稀疏注意力从推理拓展至预训练阶段[15] - 在发展路径探索上,V3.2验证了扩大后训练强化学习能提升模型能力,其将相当于预训练成本10%以上的算力投入后训练强化学习,并计划加大预训练规模[17] - DeepSeek-V3.2在强化学习中使用合成数据,在Tau2Bench、MCP-Mark和MCP-Universe等基准测试中性能显著提升[17] 2. 稀疏化分配方案的引入(Engram) - 2026年1月12日,DeepSeek发布论文提出“条件记忆”新机制,引入名为“Engram”的条件记忆模块,通过稀疏查找检索静态知识嵌入,以解决大模型处理知识类问题时浪费推理资源模拟检索的问题[8][19] - Engram通过对文本进行哈希映射至可扩展的静态记忆表,实现常数时间复杂度的知识检索,查找复杂度与模型规模无关[22] - 实验表明,当20%-25%的稀疏参数预算分配给Engram(剩余部分留给MoE)时,模型整体性能达到最佳[22] - Engram的引入成为MoE的理想补充,不仅在知识密集型任务上,还在通用推理、代码、数学问题上带来显著改进,其优势在于减轻了主干网络早期重构静态知识的负担,增加了用于复杂推理的有效深度,并在长文本处理上展现出结构性优势[25] - 性能对比数据显示,在相同激活参数量(约38亿)和训练token数(2620亿)下,引入57亿Engram参数的27B Engram模型在多个基准测试上表现优于同规模的27B MoE模型和41B密集模型,例如MMLU准确率从574%提升至604%,GSM8K准确率从584%提升至606%[26] - Engram架构实现了计算与内存的解耦,允许将模型参数表卸载到主机内存而不带来显著效率损失,这缓解了GPU内存限制,为挂载TB级别超大规模记忆库提供路径,有望大幅缓解国产AI芯片厂商HBM供应受限的境况[8][29] 3. 模型层间信息传输方式的底层架构创新(mHC) - 2026年1月1日,DeepSeek发布论文提出名为mHC的新网络架构,旨在解决信息流动问题[8][30] - mHC架构建立在字节跳动此前发布的Hyper-Connections(HC)基础上,重点改进了ResNet架构信息通道宽度受限、计算冗余和内存占用的问题[8][30] - ResNet是当前Transformer及大模型的主流底层组件,但存在上述局限[30] - HC架构虽能提升性能,但会导致信号被持续放大,使模型训练不稳定,难以应用于大模型[31] - mHC引入类似“加权平均”的思路,通过凸组合保证信号不会被无限放大,解决了HC的稳定性和可扩展性问题[31] - 实验结果表明,在MoE模型上,mHC使得模型训练的收敛速度提升了约18倍[8][31] 4. 长文本输入:用图像承载文本信息,实现高效压缩 - DeepSeek在模型DeepSeek-OCR和DeepSeek-OCR2中,提出将视觉作为文本压缩媒介的新方法,将文本以图片方式输入,以极大减少输入所需token数量,解决长文本输入问题[8] - 实验数据显示,当文本token数在视觉token的10倍以内(压缩率<10×)时,模型解码精度可达97%;当压缩率达到20×时,解码准确率仍保持在约60%[34] - 在DeepSeek-OCR 2中,创新的DeepEncoder V2初步验证了使用语言模型架构作为视觉编码器的潜力,为迈向统一的全模态编码器提供了新的发展路径[37] 5. R1论文更新与训练成本 - 2026年1月4日,DeepSeek将R1论文从22页更新至86页,增加了训练流程、基础设施、消融实验、中间检查点、失败尝试及模型不足等细节,展现了更高的公开透明度[8][38] - 根据论文披露的成本数据,DeepSeek-R1进行进一步训练的成本为294万美元,使得R1的总训练成本达到586万美元[8][39] - 该总成本远低于顶级模型训练动辄千万美元的门槛,其中预训练和后训练分别占总成本的95%和5%[8][39] 6. V4的潜在创新猜想和影响力预测 - **模型成本降低**:基于Engram架构和mHC等新技术,V4的模型成本有望大幅降低,从而较大缓解目前国内缺芯的状况[4][40] - **继续开源且能力超越闭源模型**:预计DeepSeek将继续坚持开源路线,同时V4模型能力有望实现较大超越,这可能对OpenAI、Anthropic等专注于闭源大模型的厂商形成较大的盈利冲击,深刻改变海外AI产业发展格局,并利好下游AI应用落地[4][41][45] - **基于独立于Transformer的全新架构**:2026年1月20日DeepSeek代码库中意外曝光的名为“Model 1”的新模型,暗示V4可能采用全新的技术路径或基础架构,这将带来里程碑意义的技术突破,开启大模型发展新范式,帮助人类更快通往AGI[4][46] - **与国产芯片深度融合**:考虑到2025年已实现的协同优化,2026年DeepSeek有望在国产适配方面取得更多进展,V4可能部分或全部采用国产芯片进行训练,利好国产算力的生态建设[4][47]
OpenAI推理第一人创业了:要造“活到老学到老”的AI,先来融它70个亿
36氪· 2026-01-29 15:16
核心观点 - 前OpenAI核心研究员Jerry Tworek离职后迅速创立Core Automation公司,旨在开发具备“持续学习”能力的新型AI模型,并计划激进地筹集5亿至10亿美元资金 [1][8] - 公司认为当前主流大模型“训完就上线”的静态模式存在局限,而“持续学习”是提升AI在真实世界中适应性、降低成本效率并迈向AGI的关键路径 [5][10][13] 公司概况与创始人背景 - 新公司名为Core Automation,由OpenAI前员工Jerry Tworek在离职不到一个月后创立 [1] - Jerry Tworek是OpenAI推动大模型具备推理能力的核心人物之一,拥有数学硕士背景及量化研究经验,主导了推理模型o1的研发,并深度参与了o3、GPT-4、ChatGPT、Codex等核心模型线的构建 [3] 技术方向与计划 - Core Automation的技术切入点是解决“持续学习”问题,目标是让AI模型能够像人类一样,从连续不断的新数据、新任务和新经验中学习新知识,同时尽可能不遗忘旧知识 [5][7] - 具体实现计划包括构建一套不依赖Transformer的新架构,并将分散的训练流程整合为一个连续的系统,使模型在运行过程中也能完成学习 [8] 融资目标 - 公司计划筹集5亿到10亿美元资金,折合人民币约70亿元,旨在以“下一代基础模型实验室”的规格起步 [1][8] 行业趋势与竞争格局 - “持续学习”被视为实现AGI的关键前提,因其能让模型持续进化、处理长时序任务并可能降低对海量静态数据预训练的依赖,从而提升成本效率 [10][11][12][13] - OpenAI联合创始人Ilya Sutskever创办的SSI公司也专注于类似方向,其理念与Jerry高度重合,认为真正的AGI应是在真实世界中不断学习积累经验的系统 [15] - 谷歌研究院等大型科技公司也在推进相关研究,例如提出了“Nested Learning”和“Titans”等新思路,通过引入可学习的长期记忆模块来增强模型的持续学习能力 [17] - DeepMind的强化学习研究员Ronak Malde预测2026年将成为“持续学习元年” [19]
OpenAI推理第一人创业了:要造“活到老学到老”的AI,先来融它70个亿
量子位· 2026-01-29 13:03
核心观点 - OpenAI前核心研究员Jerry Tworek离职后迅速创立Core Automation公司,瞄准“持续学习”领域,计划筹集5亿至10亿美元资金,旨在开发能够像人类一样从新数据和新经验中不断学习且不遗忘旧知识的新型AI模型 [1][15][18] Jerry Tworek的背景与成就 - Jerry Tworek拥有强大的理论与数理功底,在华沙大学获得数学硕士学位,并曾从事量化研究工作,专注于优化问题与噪声数据处理 [6][7][8] - 2019年加入OpenAI后,他将强化学习的方法论带入大模型研究,主导了首个推理模型o1的研发,并深度参与了o3、GPT-4、ChatGPT、Codex等多条核心模型线的构建,是推动大模型从生成走向推理的核心人物之一 [9][10] Core Automation公司的技术方向与目标 - 公司致力于解决“持续学习”问题,目标是让AI模型能够在真实世界的使用过程中,从连续不断的新数据、新任务和新经验中逐步学习新知识,同时尽可能保留旧知识 [15][16] - 技术实现计划包括构建一套不依赖Transformer的新架构,并将分散的训练流程整合为一个连续的系统,使模型在运行过程中也能完成学习 [17] - 融资目标激进,计划筹集5亿到10亿美元,旨在按照下一代基础模型实验室的规格起步 [18] 持续学习领域的重要性与行业动态 - 持续学习被视为解决当前大模型“训完就上线”模式弊病的路径,该模式导致模型部署后能力基本固定,无法有效利用遇到的新情况 [12][13] - 从成本与效率角度看,持续学习路径被认为更具优势,它主张模型在真实使用中吸收新经验,用更少的交互实现进步,从而降低对训练数据和算力的依赖 [20][21][22] - 行业共识认为,要实现AGI,模型必须具备持续进化、处理长时序任务等“生物”能力,而“持续学习”是达成此目标的关键前提 [23] - 该领域已吸引多方关注:OpenAI联合创始人Ilya创立的SSI公司也专注于相近方向 [25];Google Research提出了“Nested Learning”和“Titans”等新思路以增强模型的持续学习能力 [28];DeepMind研究员预测2026年将成为“持续学习元年” [31]
Kimi-K2
2026-01-29 10:43
公司/行业 * 公司为Kimi,专注于通用人工智能(AGI)大模型开发,其最新产品为Kimi K2.5模型[1][3] * 行业为通用人工智能(AGI)及大模型行业,涉及国内外主要参与者如谷歌(Gemini系列)、OpenAI、DeepSeek等[1][3][7][10] 核心观点与论据 **Kimi K2.5模型的核心能力与定位** * Kimi K2.5是公司迄今为止功能最全、性能最强的版本,亮点包括多模态输入输出、前端生成及智能体协作系统[1][3] * 多模态能力是其最大亮点,全球范围内仅有谷歌的Gemini 3具备类似能力[1][3][5] * 该模型被认为是2026年AGI领域的“国货之光”,发布后获得市场从业人员和投资人的广泛关注[2] **技术优势与特点** * 通过端到端训练实现多模态能力,优于其他模型(如豆包)[4][16] * 模型为开源,在透明度和可复制性方面优于闭源的Gemini[4][16] * 支持大文件多模态输入(每个文件最大100兆,可同时输入50个文件,总量达到5个G),通过分布推理和分布记忆处理大量内容[13] * 在产品设置上细化任务类型(如长思考、慢思考等),提高了用户意图理解和任务完成度[8] **性能对比与存在的差距** * **多模态理解与透明度**:在解析多模态信息融合时,会将图表转为文本,并公开整个思考过程及数据来源,透明度高[9];但Deepseek生成的报告在专业深度上不如Gemini 3[10] * **前端生成能力**:Gemini 3表现更优,可快速完成复杂UI设计(如10分钟完成复古拍立得相机项目),而Kimi 2.5速度较慢(需约7分半钟),细节处理不足[11] * **空间推理能力**:Gemini 3表现出色,Kimi 2.5在此方面仍不够准确,存在差距[15] * **执行效率与精准度**:在处理复杂任务时,Kimi 2.5执行时间较长(如生成激光眼效果需13分钟,Gemini仅需2分半到3分钟),且有时会出现错误定位等精准度问题[12][14] * **人机交互**:Kimi 2.5通过图形化和多媒体方式增强互动,但仍处于初步阶段,与Gemini 3存在距离[17] **智能体系统的现状与挑战** * 智能体协作(Swarm)系统能够管理上千个并行工作的子智能体,展示了强大的技术实力[6] * 但该系统成本高(每次任务约需10至15元),且对于浅显任务而言成本偏高,目前实用性有限,更多是技术展示[6][18] * 成本高的原因包括每个子智能体调用都会产生token和计算资源开销[6] **国内外AGI发展水平比较** * 国内AGI发展水平与国际头部公司差距不大,仅晚约两个月左右,前沿模型与国际领先水平基本同步[7] 其他重要内容 **市场推广与产品策略的挑战** * 公司缺乏直接面向C端用户的产品(如Docs或Office套件),目前对本地Office套件的优化与国际主流云服务策略相悖,在推广时面临用户更倾向选择微软原生优化产品的挑战[19] **对能力变化的解释** * 感觉文本处理能力削弱并非能力下降,而是由于视频数据权重增加导致信息量偏移,使得文本输出相对减少[20] **成本优化前景** * 多Agent系统并非完全分散执行任务,而是在固定套路内进行(如生成前端代码的七步流程),未来有可能通过优化固定流程来降低整体成本,提高效率[21][22]
Clawdbot和Cowork将如何引领应用落地的标准范式
2026-01-29 10:43
行业与公司 * 涉及的行业为人工智能(AI)行业,特别是AI Agent(智能体)在垂直领域的应用落地,以及其对软件行业的影响[1] * 涉及的公司包括AI技术/产品公司(如Clawdbot、Cowork、Anthropic、豆包、阿里/千问、蚂蚁/阿福模型)、软件公司(如ServiceNow、CRM、Adobe、Snowflake、MongoDB)、算力/硬件公司(如台积电)以及平台型公司(如Google)[1][2][4][5][14][15] 核心观点与论据 **AI技术发展趋势与影响** * 2026年AI技术发展呈现三大趋势:1) AI模型及Agent从基础模型迭代转向垂直场景的自动化执行,替代大量人力,使市场规模扩张约10倍[2];2) 视觉模型(如Nano Banana)赋予AI“眼睛”,通过前端视觉识别解决后台脚本无法处理的问题,提升全自动化工作流效率[2];3) 通过强化学习训练垂直领域(如医疗、金融)的Agent,模仿人类思维链进行任务拆解[2] * 2026年将是垂直场景数据需求爆发的一年[3] * 2026年预计是A股市场Agent产品大爆炸的年度,大量C端和B端Agent产品将涌现[4] * AGI(通用人工智能)的大爆发带来的用户量增长,将大幅削弱市场对AI泡沫和投资回报率(ROI)的担忧[4] * 大模型通过改变工作流程,提高企业降本增效能力,并可能导致大规模裁员[1][16] * 传统软件UI界面可能被AI替代,依赖标准化功能和UI界面的公司(如ServiceNow、CRM、Adobe)将受到较大冲击[1][14] * Data Infra(数据基础设施)类公司(如Snowflake、MongoDB)受AI冲击较小,因其核心工具(数据库、数据检索)仍必不可少,且大型企业客户迁移成本高[15] **AI在不同市场的应用与需求** * **B端市场**:AI主要作为生产力工具,需求爆发的核心逻辑是替代人力以节省成本[7] * **C端市场**:提高生产力或自动化意义不大,核心是创造新的需求(如短视频),而非仅提升效率[6][7] * **中美市场差异**: * **北美市场**:因人工成本高,更倾向于采用公有云和多云架构,通过减少员工数量节省成本[2][19] * **国内市场**:因人工成本较低,更倾向于按结果付费,且私有化部署价值量大[2][19][20] * 国内存在大量私有化场景,本地部署价值可通过服务、硬件加软件等形式收取,可能催生以AI形式收硬件钱等新商业逻辑[20][21] **投资视角与行业挑战** * 随着下游Agent爆炸性增长,对AI泡沫化的担忧有所消除[8] * 从确定性角度看,上游算力以及Google等国内平台性公司在数据和模型能力方面具备较强闭环优势[8] * 软件公司面临的主要挑战在于场景壁垒和商业逻辑的强弱,而非技术领先[17] * 软件行业商业模式面临转型:按人头收费模式将逐步被按消费量(调用Agent)收费模式取代,导致软件公司毛利率下降(可能降至60%左右)[1][17] * 新技术将带来新玩家并淘汰老玩家,软件公司将从卖软件转向卖Agent、卖结果、卖服务[18] * 北美市场因AI提升企业自研IT能力,软件公司从卖软件转向卖服务,对毛利率造成压力;国内市场过去以项目制为主,价值量偏低,但AI能力提升可能带来价值量扩张[18] **具体AI产品与技术路径** * **CloudBot**:基于Anthropic 3.5模型,通过编程方式理解用户意图并写代码控制电脑,更依赖提示词工程,上限高但下限低,需要一定编程经验[2][9][10][13] * **CoWork**:基于垂类场景的视频进行强化学习,模仿人类操作逻辑(如通过录屏数据集训练),通过端到端模型直接获得技能[2][13] * **编程场景**:AI应用有标准答案和测试报错机制,但实际应用复杂度远高于编程本身,垂直场景的数据价值很大[5] * **工具应用**:CloudBot集成Google全家桶权限,可处理邮件、预约会议等,支持多种聊天工具[9];Gemini可用于快速梳理变化并生成研究报告[11];AI技术(如NotebookLM)可显著提升PPT制作效率(例如30页PPT仅需3小时)[12] 其他重要信息 * 台积电最近给出的指引显示未来两三年在算力领域将有连续突破[4] * 从市场反应看,美国传统软件公司普遍下跌,而以存储为代表的硬件公司持续创新高[4] * 在B端,一些公司正全面向Agent方向转型,并与第三方模型公司合作推动自身Agent发展[5] * 在C端,豆包展示了全视觉交互的Agent方式,阿里以全生态打通方式进场[5]
蚂蚁灵波开源世界模型LingBot-World,对标Genie 3
新浪财经· 2026-01-29 10:00
公司产品发布与性能 - 蚂蚁灵波科技开源发布世界模型LingBot-World,该模型在视频质量、动态程度、长时一致性、交互能力等关键指标上媲美Google Genie 3 [1][3] - 模型旨在为具身智能、自动驾驶及游戏开发提供高保真、高动态、可实时操控的“数字演练场” [1][3] - 针对视频生成的“长时漂移”问题,模型通过多阶段训练及并行化加速,实现了近10分钟的连续稳定无损生成,支撑长序列、多步骤的复杂任务训练 [1][4] - 模型交互性能可实现约16 FPS的生成吞吐,并将端到端交互延迟控制在1秒以内,用户可通过键盘或鼠标实时控制角色与相机视角并获得即时反馈 [1][4] - 用户可通过文本触发环境变化与世界事件,如调整天气、改变画面风格或生成特定事件,并在保持场景几何关系相对一致的前提下完成变化 [1][4] 模型技术特点与优势 - 模型具备Zero-shot泛化能力,仅需输入一张真实照片或游戏截图即可生成可交互视频流,无需针对单一场景进行额外训练或数据采集,降低了部署与使用成本 [2][4] - 根据性能对比表格,LingBot-World在生成视野、动态程度和分辨率上具备优势,其生成视野为“长”,动态程度为“高”,分辨率为720p [3][6] - 性能对比显示,LingBot-World在多个关键维度上优于或等同于其他主流模型,如Matrix-Game 2.0、Yume-1.5、HY-World 1.5、Mirage 2和Genie 3 [3][6] 公司战略与行业影响 - 随着“灵波”系列连续发布三款具身领域大模型,公司的AGI战略实现了从数字世界到物理感知的关键延伸 [2][5] - 这标志着公司“基础模型-通用应用-实体交互”的全栈路径已然清晰 [2][5] - 公司正通过InclusionAI社区将模型全部开源,与行业共建,探索AGI边界,一个深度融合开源开放并服务于真实场景的AGI生态正在加速成型 [2][5]