通用人工智能(AGI)
搜索文档
专访|人工智能同样需要“终身”学习——访人工智能促进协会主席斯蒂芬·史密斯
新华社· 2026-01-29 12:13
当前人工智能发展的核心范式与局限 - 人工智能近年来最引人注目的突破是大语言模型的崛起 经过海量数据训练 这类模型能理解和生成文本 甚至处理更多类型的内容 当前很多研究都是顺应这股浪潮 或者在其基础上探索新方向 [1] - 当前许多人工智能基于大语言模型 但大语言模型存在局限 目前大多数大语言模型通过训练形成基础模型后就被“冻结” 缺乏持续更新和“成长” [1] - 大语言模型的另一个缺陷是缺乏因果推理能力 大语言模型擅长抓相关性 却难以理解因果关系 规划能力有限 这也解释了为什么大语言模型有时会给出荒谬答案 [1] 人工智能未来发展的关键方向:“终身学习” - 人工智能下一步的发展方向可能在于持续乃至“终身”学习 人类不仅一生都在不断接受新知识 还在不断更新思维方式 而当前的人工智能尚无法做到 [1] - 人工智能的“终身学习”不一定需要海量信息 而可以依赖小样本 精选的数据以及主动尝试 这是人类智能的特点 [2] - 实现人工智能的“终身学习”存在关键的技术挑战 对于已经成形的大语言模型 即使是微调也必须小心谨慎 否则可能影响原有表现 [2] 具身智能与人工智能体 - 机器人等具身智能进步可能有助于人工智能的发展 机器人可以与物理世界互动 通过尝试积累经验 以填补人工智能的“知识空白” 也更利于理解因果关系 [2] - 人工智能的发展方向之一是人工智能体 与聊天机器人主要回应指令不同 人工智能体强调独立决策和行动 [2] - 今后几年 多智能体协作可能成为突破点 真正的挑战是让多个智能体自主组建 调整 规划 并解决更复杂的问题 让不同专长的智能体组成团队 共同完成任务 [2] 对通用人工智能(AGI)的展望 - 考虑到人工智能目前的发展程度 对实现具有人类认知能力水平的通用人工智能(AGI)持谨慎态度 认为通用人工智能短期内不会出现 从研究者角度看 挑战还有很多 [2]
2026年春节红包能救大厂AI 吗?
36氪· 2026-01-29 12:13
文章核心观点 - 2026年春节红包大战反映了科技巨头在AI时代的战略焦虑,其核心是争夺未来AI交互的“前台”入口主权,防止自身应用被“空心化”为后台插件[2][8][14] - 通过现金红包激励用户与AI互动是一种认知错位,难以建立用户对AI的智力依赖,反而可能因产生大量低质数据而损害模型能力,属于低效的“垂死挣扎”[5][6][20][22] - AI产品的成功应依赖于其作为实用工具的核心能力与用户体验,而非金钱激励或强行嵌入旧有社交场景,公司需要创新互动模式以获取高质量数据来训练模型[26][28][30] 红包大战的本质与动机 - 巨头投入巨额资金进行红包营销,如腾讯计划10亿,百度计划5亿,旨在重现2015年微信支付通过红包完成冷启动的成功,但此次背景与逻辑已完全不同[1][4] - 此举是公司为应对AI时代“主权”定义改变而发起的“主权保卫战”,核心目标是争夺成为用户与数字世界交互的唯一“AI前台”,避免自身超级应用被降级为后台“供货商”或“插件”[8][12][14] - 红包大战也是向资本市场传递信心的“焦虑安慰剂”,表明公司并未在AI时代缺席,尽管其可能清楚当前策略并非通往未来的有效钥匙[21][22] 现金激励的局限性 - 2015年微信红包成功的关键在于其构建了“绑定银行卡-进入移动支付生态”的刚需闭环,而当前AI红包缺乏类似的闭环,难以改变用户习惯[5] - 现金激励只能带来日活数据的虚假繁荣和用户的功利性参与,无法培养用户对AI作为“智力外挂”的依赖,补贴停止后用户极易流失[5][20] - 为领取红包而产生的低质量AI交互数据(如无意义的指令)会对大模型训练产生负面影响,德州大学2025年研究显示,垃圾数据比例升至100%可使模型推理能力暴跌23.6个百分点[6] AI时代的主权重构与行业格局风险 - AI的智能特性可能颠覆现有应用格局,用户未来或只需与一个AI助手对话即可完成购物、搜索等任务,这将使淘宝、抖音、微信等超级应用面临被“空心化”为后台供应链、视频库或数据库的风险[12][13] - 巨头试图用互联网时代“圈地”构建围墙花园的逻辑,来控制天性趋向“大一统”和“中立”的AI技术,这存在根本性的悖论与冲突[15][16] - 百度因其“信息终极分发”的基因,视自身为可调用一切应用作为“神经元”的“超级大脑”,其战略目标与AI的特性更为契合[14] 用户行为变迁与市场挑战 - 2026年的用户已对红包营销感到疲劳,小额红包从“惊喜”变为“打扰”,参与动机大幅下降[18][19] - AI作为纯工具属性产品,其采用取决于效用而非网络效应或社交关系,用户极其理性,会直接比较不同AI助手的能力差异[20] - 强行将AI嵌入现有社交场景(如腾讯元宝的“派”)可能制造尴尬,形成“四不像”产品,既无法满足专业协作需求,又可能破坏随性的社交氛围[23][24][26] 对AI产品发展与营销的建设性建议 - 红包互动设计应从“单向输出”转向“双向训练”,例如让用户投票选择AI生成的最佳内容,从而为公司获取高质量的人类偏好标注数据,这相当于将红包资金转化为“数据采购费”[28][30] - 营销策略应从“普惠撒钱”转向“精准激励”,例如用1亿资金吸引KOL、创作者等种子用户,通过他们生产的高质量教程和用例来示范AI价值,驱动普通用户的好奇心与 adoption[31] - AI产品的根本在于提升智能与实用效率,目标应是让用户感到“不带着这个AI助理,还真不行”,而非依赖红包吸引[32]
月之暗面三位联创深夜回应一切,3小时答全球网友23问,杨植麟剧透Kimi K3提升巨大
36氪· 2026-01-29 08:17
公司概况与研发文化 - 公司核心团队在Reddit平台进行了长达3小时的AMA活动,回答了超过40个问题 [1][3] - 公司拥有“把事情真正做成并落地”的共同价值观,而非追求表面光鲜 [4][9] - 公司鼓励全员参与技术讨论,每天对实验方向进行深入探讨,以决定继续、调整或放弃 [9] - 公司在押注技术基本面上有良好记录,例如MoBA项目几乎从公司成立之初开始,Kimi Linear项目经历了近一年的探索 [9] - 公司创始人认为训练模型的过程是不断接近“智能如何被创造”的真相 [9] 算力储备与行业竞争 - 公司CEO杨植麟承认,在GPU数量上与其他企业的差距并未缩小 [3][8] - 算法负责人周昕宇认为“创新往往诞生于约束之中”,暗示在有限算力下寻求突破 [3][8] - 对于实现AGI所需的算力规模,公司持开放态度,认为仍需拭目以待 [3][8] Kimi K2.5 模型技术细节 - Kimi K2.5是公司目前最强大的模型,在视觉、编程、智能体及通用任务上表现良好 [4] - 模型通过“智能体蜂群”技术,可调度多达100个子智能体,任务执行效率最高提升450% [4] - 针对模型有时自称为“Claude”的现象,CEO解释主要源于预训练阶段对最新编程数据进行了上采样,这些数据与“Claude”这个词元关联性强,并非模型蒸馏自Claude的证据 [3][16] - 公司称K2.5在多项基准测试中优于Claude,例如HLE、BrowseComp、MMMU Pro和MathVision [3][17] - 公司通过提高数据质量(更多验证知识)和调整奖励机制(惩罚幻觉)来降低模型幻觉问题 [17] - Kimi K2.5采用了较高的参数比例(约470:1),使用了15万亿个token进行训练,公司认为适度“过度训练”是为获得更优整体权衡而支付的“成本”,而非浪费 [17][18] - “智能体蜂群”技术允许子智能体拥有独立工作记忆,只在必要时将结果返回主调度器,从而避免了上下文污染,并在新维度上扩展了整体上下文长度 [18] - 公司认为在参数规模足够的情况下,编程能力与创意写作等“软性”能力不存在根本冲突,但保持一致的“写作品味”是一项挑战,公司通过内部基准评测来调整奖励模型 [19] - 公司承认模型版本迭代会导致“个性”变化,这是一个棘手且主观的评估问题,正在努力解决以满足用户个性化需求 [20] - 公司开发了自有编程工具Kimi Code,以更好地匹配其模型框架,并拥有视频输入等独有功能,认为video2code代表前端开发的未来 [11][12] 技术研发方法与挑战 - 训练视觉语言模型的主要挑战在于同时提升文本和视觉性能,公司发现方法得当时两者可相互促进,例如视觉任务上的强化学习训练可提升文本知识基准成绩 [10] - 强化学习基础设施是巨大挑战,公司力求在保持灵活性的同时实现高效率,并复用繁重计算工作以实现规模化扩展 [12] - 智能体蜂群的部署逻辑复杂,但公司系统具有高灵活性,允许集成不同框架和子智能体设置到训练过程中 [13] - 公司的Scaling实验从非常小的规模开始,有时小到可在单个CPU上训练,核心目标是预测系统的可扩展性 [13] - 公司曾急于将Kimi Linear移植到Kimi K2中,但遭遇规模化失败,经过数月调试才使其达到现有水平 [13] - 公司认为大多数小规模有效的方案无法突破规模化瓶颈,能成功推广的方案通常简单有效且有数学依据,研究的重点在于应对失败 [13] - 对于DeepSeek的Engram架构,公司认为对嵌入进行Scaling是有趣方向,但在通过Scaling阶梯测试前尚无可靠数据 [8] - 关于强化学习算力预算,CEO表示其计算量将持续增长,且未来可能出现更多新的目标函数对模型进行强化训练,尤其是在智能体领域 [15] - 公司认为当前模型能力的瓶颈往往不在于路线复杂度,而在于任务本身是否可验证,智能的上限更取决于能否发明新的学习算法 [15][16] - 公司使用小型视觉编码器(如400M),因为其有利于Scaling,甚至考虑过设为0的可能性 [26] - 目前公司没有足够资源处理音频输入,可能将重点放在训练更好的智能体上 [26] 未来规划与Kimi K3展望 - 对于下一代模型Kimi K3,CEO未透露太多细节,但提到会在Kimi Linear基础上加入更多架构优化 [3] - CEO相信Kimi K3就算没有比K2.5强10倍,也肯定会强很多 [3][23] - Kimi K3将尝试新的架构和功能 [21] - 线性架构是一个非常不错的选择,公司做了大量研究,Kimi Linear是与之并行的一项专门研究项目 [22][24] - 公司正大力投资线性注意力机制,将其作为未来模型的关键方向 [24] - 公司相信持续学习能够提升模型的自主性并使其更长时间高效工作,正在积极探索该方向 [24] - 公司认为模型的核心在于“品味”,因为智能是非同质化的,并指出K2.5相比其他模型更少迎合用户,这可能是一种好的性格特征 [25] - “智能体蜂群”功能目前处于测试阶段,待其更加稳定后,公司将向开发者提供框架 [25]
对2026 年 AI 发展的 17 个预测
36氪· 2026-01-29 07:26
文章核心观点 - 2026年AI行业将进入从“实验室”转向“生意场”的关键年,关注点将从技术突破转向营收、落地和执行[1] - AI并非即将破裂的泡沫,但通用人工智能(AGI)引发经济“一飞冲天”的全面影响尚需时日,模型能力将持续提升[1] 科技巨头资本支出 - 2024年五大云服务商(谷歌、微软、亚马逊、Meta、甲骨文)资本支出总额为2410亿美元,2025年预计超过4000亿美元[2] - 预计2026年科技巨头资本支出增长将放缓,但全年总额仍将突破5000亿美元[3] - 行业领袖表示,数据中心建设是为了满足客户当前订单,美国企业正以前所未有的规模为新型AI服务买单[2] AI公司营收与目标 - OpenAI预计2025年收入超过130亿美元,年度经常性收入(ARR)约200亿美元,目标2026年实现300亿美元营收[11] - Anthropic预计2025年营收约47亿美元,年度经常性收入(ARR)已增长至“近70亿美元”,目标2026年实现150亿美元营收[11] - 预测OpenAI和Anthropic均能达成甚至超额完成2026年营收目标[4][5] AI模型技术发展 - 大语言模型(LLM)的上下文窗口(一次能处理的Token数量)增长已放缓[6] - 2022年11月ChatGPT上下文窗口为8192个Token,2023年11月GPT-4 Turbo为12.8万Token,2024年2月Gemini 1.5 Pro达到100万Token[6] - 预计2026年通用前沿模型的上下文窗口将维持在100万Token左右,保持相对稳定[7] - 文本扩散模型(如Gemini Diffusion)因生成速度快、学习效率高等优势,预计将在2026年进入主流视野[26] - 预计2026年将至少有一家主流实验室发布基于扩散技术的大语言模型供主流用户使用[26] AI软件工程能力 - 顶尖AI模型能以50%成功率完成的软件工程任务时长,呈现指数级增长,翻倍时间从7个月缩短至5个月[14] - 2025年11月发布的Claude Opus 4.5能以至少50%成功率完成耗时近5小时的软件任务[14] - 预计2026年趋势将持续,最强大的AI模型将能在耗时20小时(相当于软件工程师半个工作周)的软件任务上达到50%的可靠性[10][14] 自动驾驶与无人驾驶出租车 - 2025年Waymo周订单量翻了三倍,并在多个新城市开启无人驾驶运营[1] - 特斯拉在奥斯汀和旧金山推出了配备安全监管员的无人驾驶出租车服务[1][24] - 目前Waymo商业车队约有2500辆车,中国公司小马智行约有1000辆车[21] - 小马智行目标到2026年底车队达到3000辆,Waymo若实现周订单100万单目标则需要4000到6000辆车[21] - 预测2026年底至少会有一家中国公司(如小马智行、百度萝卜快跑、文远知行)的全球无人驾驶出租车车队总规模超越Waymo[20][21] - 预测2026年将出现首款面向消费者销售的全自动驾驶(L4级)汽车,可能来自Tensor等公司,而非特斯拉[22] - 预测特斯拉将在2026年于至少一个城市开始向公众提供真正的无人驾驶(车内无员工)出租车服务[24][25] AI行业生态与竞争 - 模型上下文协议(MCP)可能被视为冗余的抽象层,预计到2026年底,主流AI供应商将停止对其投入[17][18][19] - 在开放权重模型领域,2024-2025年中国模型(如Qwen 2.5、DeepSeek R1)超越了美国模型[30] - 预计2026年美国开放权重模型将通过ATOM等项目发力,追上中国模型的性能[31] - 在短视频生成平台,Meta的Vibes应用在2025年11月中旬日活用户达200万,应用商店排名已超过OpenAI的Sora[32] - 预测一年后(约2026年底)Vibes的活跃用户数将超过Sora[32] - 反方观点认为,因OpenAI与迪士尼签署独家授权协议,Sora的活跃用户数可能超过Vibes[33] AI法律与监管环境 - 法院已裁定训练AI模型本身不构成侵犯版权,但AI公司需建立防止产出侵权内容的防线[15] - Anthropic支付了15亿美元以和解有关训练数据的指控[15] - 预计2026年AI公司将面临更严格的运营限制,若不采取合理措施预防损害,将面临巨额罚单[15] - 预测2026年AI行业初期“法律混战”的局面将彻底终结[15] AI宏观经济影响 - 有观点预测AI可能在2027年引发GDP“大涨”,甚至让美国GDP年增长率高达50%[8] - 预测2026年第三季度美国实际GDP同比增长率不会超过3.5%[8] - 预计AI对2026年美国经济增长的支撑作用仅占百分之零点几,不足以让整体经济增长超出常规范围[9] AI社会影响与安全 - 预测2026年不会出现任何由AI引发或起到关键助推作用的重大实体或经济灾难[16] - 预测2026年媒体中同时提到“AI”和“自杀”的报道内容将至少是2025年的三倍,但实际自杀人数预计不会增加[29] - 预计到2026年底,将会出现一个募资至少2000万美元、专门游说反对“AI友好型”政策的反AI超级政治行动委员会(super PAC)[27][28]
港股“AGI第一股” 盘中涨超99%
上海证券报· 2026-01-28 19:53
公司股价表现 - 2025年1月28日,公司股价大幅上涨,最高涨幅达99.45%,收盘报395港元/股,涨79.71%,成交额24.20亿港元 [2] - 公司于2025年6月30日在港交所主板上市,发行价为205港元/股,股价在2025年9月1日曾达到879港元/股的高点,随后进入下行通道,于2026年1月26日一度跌至203港元/股 [4] 2025年度业绩预告 - 预计2025年大模型相关业务收入达到6.0亿元至6.2亿元,较2024年的5187万元同比增长约1057%至1095% [2] - 预计2025年合计收入达11.8亿元至12.4亿元,同比增幅为26%至32% [2] - 大模型相关业务收入占整体收入的比例预计达到48%至53%,成为核心营收支柱 [2] 大模型业务驱动因素 - 业务增长源于大模型核心技术能力保持行业领先,以及商业化落地进程加速 [2] - 公司已构建“山海”系列大模型,形成涵盖大语言模型、多模态大模型及专业行业大模型的完整矩阵 [2] - 大模型产品在医疗、医保及交通等严肃应用场景持续落地与复制,客户认可度提升,商业化进程加快 [3] 具体商业化进展 - 在医疗领域,基于“山海”大模型的智慧医疗解决方案已在近400家医院完成部署,700余家医院进入测试阶段 [3] - 江苏省级医保大模型项目是全国首个落地的省级医保垂直大模型项目 [3] - 公司选择深耕医疗、医保、交通等“严肃场景”,凭借标准化智能体解决方案实现快速复制 [3] 市场地位与行业前景 - 2024年,公司在中国AI解决方案市场排名第四,在日常生活AI解决方案市场排名第三,在医疗AI市场排名第四 [3] - 2024年中国的AI解决方案市场规模为1804亿元,五年复合增长率为33.7%,预计2030年将达到11749亿元,复合增长率36.7% [3]
周伯文:缺乏专业推理能力是当下前沿模型的一大短板
新浪财经· 2026-01-28 18:32
人工智能发展阶段的演进 - 人工智能发展呈现阶段性跃迁,可分为三个关键阶段:ANI(狭义人工智能)、ABI(广义人工智能)与AGI(通用人工智能)[1] - ANI在2016年已趋于成熟,通往AGI的必经之路是率先实现具备跨领域泛化能力的ABI[2] - ChatGPT的问世验证了从有监督学习转向自监督学习、从任务级联系统转向端到端架构、从判别式工具进化为生成式助手这三方面技术范式变革,宣告了ABI阶段的到来[2] 通用人工智能(AGI)的核心路径 - 通往AGI的下一步不仅仅是计算量的堆叠,“通专融合”是一条可探索的路径[2] - 真正的AGI必须打破“专业性”与“通用性”的二元对立,构建能够动态融合直觉式“系统1”与逻辑式“系统2”的智能架构[2][3] - 目标是构建一种能够在保持通用认知基座的同时,通过持续学习与深度推理在特定任务上实现专家级专精的智能[3] - 上海AI实验室提出的智者SAGE技术架构旨在弥合广泛泛化与深度专精的鸿沟[3] 科学发现作为AI的下一个前沿 - 人工智能的下一个前沿领域是科学发现(Scientific Discovery, SD)[4] - 科学发现是推理智能的终极考验,涵盖了从假设生成、实验验证到理论总结的全过程[4] - 科学发现对AI提出三重挑战:处理“已知的未知”(如组合爆炸问题)、泛化“未知的未知”、应对稀疏与延迟的实验奖励反馈[4] - 尽管AI for Science(AI4S)在特定领域取得成就,但过度依赖现有深度学习模型可能局限新知识的探索边界,甚至阻碍创新[4] 当前AI模型在科学发现中的能力短板 - 传统深度学习擅长处理数据充足、定义明确的任务,但难以应对科学发现中“未知的未知”[5] - 一项由上海人工智能实验室联合100位科学家进行的评估显示,前沿模型在通用科学推理任务中得分可达50分(满分100分)[5] - 但在专项文献检索、具体实验方案设计等专业推理任务中,模型得分骤降至15-30分[5] - 这种明显的“木桶效应”表明,科学发现全周期的效能正受制于专业推理能力的薄弱环节[6] 从AI4S向AGI4S的迭代演进 - 需要整合通用推理与专业能力,推动科学智能从AI4S向AGI4S迭代[6] - 从AI4S迈向AGI4S旨在推动研究者、研究工具与研究对象的协同演进,通过三者相互作用创造革命性工具,推动科研范式变革[6] - 当前已身处通用人工智能的前夕,但仍缺失通专融合的智能,亟需推动科学智能从1.0向2.0迭代演进[1][6] - 实现AGI的可行路径是发展“可深度专业化通用模型”,其关键挑战在于需要低成本、可规模化的密集反馈,并具备持续学习、主动探索及提供多视角解决方案的能力[6]
游族网络与国产GPU厂商曦望达成游戏算力协同战略合作
南方都市报· 2026-01-28 16:59
公司与行业战略合作 - 游族网络与国产GPU厂商曦望就数字经济算力协同达成战略合作,双方将探索让国产推理芯片高效能无缝接入游戏研运流程,致力于形成一套自主可控、经过实战验证的“游戏AI算力解决方案” [1] - 合作成果旨在为行业提供高性能、低成本的国产化选择,全面赋能游戏开发者,为游戏产业智能化升级提供创新动力 [1] 合作方曦望背景 - 曦望是国产全栈自研人工智能算力芯片企业,前身为商汤大芯片部门,于2024年底分拆独立运营 [1] - 公司专注于高性能GPU及多模态场景推理芯片的研发与商业化,凭借八年技术沉淀、二十亿研发投入及两代量产芯片的工程化验证,已成为国产GPU替代的核心力量 [1] - 公司致力于为千行百业提供成本降低十倍、能效比突破的智能算力基石,通过技术创新和深度产业协同推动各行业智能化发展,并助力实现通用人工智能的普惠化目标 [1] 游族网络背景与近期动向 - 游族网络是2009年成立于上海、2014年A股上市的研运一体游戏公司,深耕“全球化卡牌+”战略,以“少年三国志”系列等产品布局卡牌与SLG赛道,业务覆盖全球多个国家及地区 [2] - 公司近年来转型意图明显,于2025年1月12日与纳斯达克上市企业世纪互联达成战略合作,双方将在国家“东数西算”战略节点内蒙古乌兰察布就绿色算力项目开展紧密合作 [2] - 公司此前投资了AI明星企业壁仞科技,目前持有其约0.21%股份 [2] - 游族网络已于2025年参投曦望 [1]
VLA工程师安鹏举:年轻人就要在“机器人第一城”卷一卷
南方都市报· 2026-01-28 10:40
行业宏观趋势与预测 - 埃隆·马斯克预言通用人工智能将于2026年实现,到2040年全球人形机器人数量将突破100亿台 [2] - 2025年具身智能已不再是实验室里的科幻名词 [4] - 截至2024年底,深圳人工智能相关企业已超2200家,形成龙头企业国际争先、高成长性企业国内一流、初创企业竞相发展的“雁阵式”梯队 [4][5] - 深圳被誉为“机器人第一城”,头部人形机器人企业的核心部件国产化率超90%,产业链供应链本地化率最高达60% [5][12] 公司技术与研发 - 众擎机器人是一家全栈自研公司,涵盖本体核心零部件、小脑运控算法以及大脑具身智能 [5] - 公司研发测试场呈现独特的赛博工业美学,工程师正对一台1.4米高的机器人进行测试,使其能完成行走、跳舞、跳跃等动作 [2] - 公司招聘强调寻找“具身智能的探索者”,而非普通程序员 [7] - 公司拥有名为PM01的硬件产品,工程师认为硬件已经准备好,只差杀手级的通用大模型 [11][12] 核心技术:VLA(视觉-语言-动作) - VLA算法工程师负责打通机器人的“眼-脑-手”,将大模型理解的语义翻译成机器人能执行的“肌肉记忆” [10][11] - 技术逻辑分为三部分:Language(语言)用于理解语义;Vision(视觉)用于识别物体的三维坐标;Action(动作)是最难的部分,需精确控制关节动作 [11] - 工程师日常工作在“示教”与“炼丹”之间循环,包括通过VR眼镜或手柄远程控制机器人记录动作数据,以及用数据训练模型进行“模仿学习” [11] - 通过设定“奖励函数”(如成功拿起杯子+100分,掉落-100分)来驱动机器人在千万次尝试中寻找最优解 [11] - 训练过程中出现了有趣的“觉醒时刻”,例如机器人未经教导即在被推搡时退步稳住重心,以及从人类“不完美”的抖动数据中学会了自主纠错能力 [11] 人才与产业生态 - 深圳通过“百万英才汇南粤”等项目吸引高端人才,例如引进拥有顶尖学术背景的VLA算法工程师 [2][7] - 深圳被形容为硬科技创业者的“迪士尼”,因其极高的“科创浓度”和活力 [7][12] - 人才选择投身企业而非继续读博,是因为认为最丰富的数据、最先进的硬件和最真实的落地场景目前都在企业里 [7] - 工程师的驱动力源于希望AI代码能变成物理世界的动能,而不仅限于在服务器中运行 [8] 市场前景与产品展望 - 人形机器人正经历“寒武纪大爆发”阶段 [4][7] - 简单的端茶倒水任务可能在3年内在特定场景实现,但像保姆一样叠衣服、做饭、带孩子等复杂任务可能需要5-10年 [12] - 行业发展被认为“比大家想象的要快,但也比营销号吹的要慢”,目前处于类似“iPhone 1代发布的前夜” [12] - 长远愿景是机器人成为人类可靠且有温度的“副手”,而不仅仅是冷冰冰的替代者 [12]
38分钟内即可解决近25年所有奥数几何难题 人工智能逻辑推理技术获突破
科技日报· 2026-01-28 09:56
技术突破与核心能力 - 中国科研团队开发出全球首个同时具备自主出题和自动解题双重能力的通用人工智能系统“通矩模型”(TongGeometry)[1] - 该系统实现了从“模仿解题”到“自主创造”的范式转变 能精准捕捉具备人类数学家审美标准的高质量题目[1] - 其自主生成的3道几何新题已正式入选2024年全国中学生数学联赛(北京赛区)及美国精英奥赛[1] 性能与效率优势 - 相比DeepMind的AlphaGeometry需要庞大算力集群 TongGeometry仅需单张消费级显卡即可在最多38分钟内解决近25年所有的奥数几何难题[2] - 该系统不依赖海量标注数据 通过内部逻辑自我演化 在理解逻辑底层美学和自主发现科学规律方面走在前列[2] 行业地位与意义 - 该成果标志着在自动化推理的逻辑核心领域实现关键技术自研 并在性能与功能多样性上全面超越以DeepMind为代表的国际顶尖水平[2] - 这种发展路径被认为是通用人工智能(AGI)发展的关键[2]
人工智能逻辑推理技术获突破
科技日报· 2026-01-28 09:19
文章核心观点 - 中国科研团队开发出全球首个兼具自主出题与自动解题能力的通用人工智能系统“通矩模型”(TongGeometry),实现了从“模仿解题”到“自主创造”的范式转变,并在性能与功能多样性上全面超越以DeepMind的AlphaGeometry为代表的国际顶尖水平 [1][2] 技术突破与能力 - 系统具备“出题”与“解题”双重能力,不仅能像“优等生”一样满分解题,更能像“出题名师”一样创造优美、新颖的题目 [1] - 其自主生成的3道几何新题已正式入选2024年全国中学生数学联赛(北京赛区)及美国精英奥赛 [1] - 系统能从浩如烟海的空间组合中,精准捕捉具备人类数学家审美标准的高质量题目 [1] 性能与效率优势 - 相比AlphaGeometry需要庞大的算力集群,TongGeometry仅需单张消费级显卡即可运行 [2] - 该系统能在最多38分钟内,解决近25年所有的奥数几何难题 [2] 技术路径与行业意义 - 该系统不依赖海量标注数据,通过内部逻辑自我演化,是通用人工智能(AGI)发展的关键路径 [2] - 中国科研团队在自动化推理的逻辑核心领域实现了关键技术自研 [2] - 系统在理解逻辑底层美学和自主发现科学规律方面走在了前列 [2]