通用人工智能(AGI)
搜索文档
Lisa Su最新专访:谈GPU、DeepSeek和AI展望
半导体行业观察· 2025-08-14 09:28
公司业绩与战略 - AMD在苏姿丰领导下市值从20亿美元飙升至近3000亿美元 [5] - 数据中心收入从2022年60亿美元增长到2023年126亿美元 [15] - 采用小芯片技术并推出全球首款7纳米数据中心GPU [6] - 与OpenAI、Meta、谷歌、特斯拉等巨头达成合作 [6][16] 行业竞争格局 - AMD与英伟达在AI芯片市场直接竞争 [3][7] - 英伟达市值达4.4万亿美元远超AMD [7] - 特朗普政府对销往中国芯片征收15%关税 [3] - ROCm软件生态系统与英伟达CUDA存在差距 [19] 技术发展方向 - 人工智能从训练转向推理计算 [18] - 模块化芯片制造方法获得巨大回报 [6] - 医疗保健被视为AI关键应用领域 [22][31] - 预计未来三四年市场规模超5000亿美元 [16] 产业政策与布局 - 支持芯片制造回归美国 [11] - 台积电亚利桑那晶圆厂已运行最新服务器处理器 [12] - 半导体产业对国家安全和经济利益至关重要 [11] - 需要改变追求最低成本的心态 [12] 产品与研发 - 针对内存容量等推理计算关键因素优化 [18] - 拥有AI模型团队进行产品测试 [19] - 通过收购Nod.ai加强软件生态系统 [22] - 微软将在云服务中全面采用AMD芯片 [17]
“一轮融资近600亿,凶悍的全球第三大独角兽”
搜狐财经· 2025-08-14 08:43
融资与估值 - 公司完成83亿美元战略投资轮融资 投后估值达3000亿美元 折合人民币2 2万亿元 成为全球第三大独角兽 仅次于SpaceX和字节跳动 [1] - 本轮融资主要用于扩建AI算力集群 模型训练和推理成本 以及潜在并购 与400亿美元长期融资计划相配套 [1] - 领投方Dragoneer Investment Group单笔出资28亿美元 创下单一LP对初创企业的出资纪录 [2] - 跟投方包括黑石 TPG 富达 红杉等十余家机构 获得约5倍超额认购 优先引入新战略投资人 部分老股东额度被压缩 [2] 投资方与历史融资 - 初期启动资金来自马斯克 Altman等10亿美元捐赠承诺 2019年设立有限盈利子公司后获微软首笔10亿美元投资 [3] - 后续融资方包括老虎环球 a16z 微软 软银等 微软累计投资4次 并在管理层变动中力挺CEO Sam Altman [3] - 软银曾计划牵头年初400亿美元融资轮次 3000亿美元估值当时已提出 [3] 产品与市场表现 - 旗下产品ChatGPT于2022年上线 创下5天用户破百万 2个月破亿的纪录 成为人类历史上增速最快的消费级应用 [5] 公司背景 - 2015年由Sam Altman 马斯克等9人创立 初衷为确保通用人工智能造福全人类 最初定位为非营利研究实验室 [2] - 马斯克因利益冲突于2018年退出董事会 [3]
AI迎来关键转折,空间智能爆发临界点已至?
36氪· 2025-08-13 18:39
空间智能的定义与重要性 - 空间智能是人工智能理解、生成、推理并与三维世界交互的能力,是人类和动物智能的核心,历经5.4亿年进化完善,而语言进化仅用不到百万年[1] - 空间智能是感知世界和与物理环境互动的基础,对机器人、智能辅助驾驶、虚拟现实和内容创作等领域不可或缺[1] - 中国工程院院士倪光南指出,AI与空间智能融合是落实国家"人工智能+"行动的关键技术,正在重构三维物理世界并拓展大模型通向物理世界的桥梁[3] 空间智能的技术挑战 - 空间智能开发比语言处理复杂,语言是线性一维的,而三维世界充满动态性和物理规律,从2D图像重建3D结构是数学上的"病态"问题,存在多种解法[6] - 语言数据在互联网上随处可见,但空间数据大多存在于感知中难以直接获取,数据稀缺性带来巨大挑战[6][7] - 维度复杂性挑战:语言是一维序列,现实世界是三维空间与一维时间结合,组合复杂性呈指数级增长,计算需求远超语言模型[6] - 信息获取非适定性挑战:从2D图像重建3D信息需要模拟人类的多模态感知能力[6] - 生成与重建二元性挑战:空间智能系统必须同时具备生成虚拟世界和重建真实物理世界的能力,要求算法遵守物理规律并捕捉细节[6] 空间智能的五层技术框架 - 第一层:底层三维属性重建,包括深度感知、相机定位、点云构建与动态跟踪等基础组件[8] - 第二层:三维场景组成要素重建,包括人物、物体和建筑结构等元素的几何重建,神经辐射场和3D高斯点云等技术实现高度真实感细节还原[9] - 第三层:完整的4D动态场景重建,引入时间维度构建动态表征系统,分为通用场景4D重建和人体运动专项建模[9] - 第四层:场景内部组成部分交互关系重建,建立场景元素间动态交互模型,重点研究人体与物体运动关联[10] - 第五层:引入物理规律和约束条件,整合重力、摩擦等基础物理规律,扩展至物体形变和碰撞检测等复杂物理现象[10][11] 行业应用与案例 - 自动驾驶领域:空间智能帮助辅助驾驶系统预测车辆行人行为并调整行车策略,提高安全性与效率[12] - 日本东京进行3D数字孪生化,绝对位置精度10cm以内,包含LiDAR点云和实时交通数据,预计2030年实现完整数字孪生城市[15] - 中国MogoMind模型整合车辆轨迹和交通流量等数据,具备六大关键能力:实时全局感知、物理认知理解、通行能力推理计算、最优路径规划、数字孪生和风险预警[16] - 医疗领域:空间智能对CT、MRI等影像数据进行三维重建分析,帮助医生更准确诊断疾病并提供手术导航[17] - 数字孪生城市提供实时反馈并随城市动态调整状态,使城市管理更加灵活高效,如新南威尔士州通过该技术实时调整交通减少拥堵[16] 技术演进与未来展望 - 空间智能代表AI领域崭新思维方式,将感知信息转换为外部环境抽象模型,使智能体能够预测和理解世界动态变化[12] - 空间智能是AI从"自发感知"走向"自主认知"的迈进,突破信息空间局限向真实三维世界扩展[12] - 英伟达科学家Jim Fan表示未来城市管理将依赖实时图形引擎中的模拟和集群系统,使机器人能快速适应复杂环境[16] - 通过高精度模拟环境训练,机器人能获得丰富训练数据并在复杂场景中快速学习,推动从虚拟到现实世界的顺利迁移[16]
OpenAI联合创始人Greg Brockman:对话黄仁勋、预言GPT-6、我们正处在一个算法瓶颈回归的时代
AI科技大本营· 2025-08-13 17:53
行业演进与公司发展 - 计算机行业正经历从个人魔法到工业革命的演进,OpenAI驾驭十万GPU集群标志着AI基础设施的成熟[3] - Stripe早期通过第一性原理突破传统限制,24小时完成银行需9个月的技术对接,体现硅谷创新精神[15][16] - OpenAI构建了研究-工程双引擎文化,工程能力与研究洞见同等重要,共同推动AGI发展[27][28][29] 技术突破与创新 - 深度学习从AlexNet开始颠覆传统规则,神经网络在多个领域超越人类设计的系统[24][25] - 强化学习(RL)和混合专家模型(MoE)成为解决算法瓶颈的关键方向,推动AGI研究进入新阶段[49][48] - Codex已贡献OpenAI内部10%代码合并请求,外部GitHub日处理24000个PR,重塑软件开发流程[42] 基础设施与硬件需求 - AI基础设施需兼顾高计算量任务与低延迟响应,催生专用加速器需求[45][47] - 模型规模扩大带来系统复杂性挑战,检查点机制和可靠性设计成为训练长周期智能体的关键[43][44] - 黄仁勋提出未来数据中心需支持多样化工作负载,包括多模态AI和实时交互系统[45][46] 产品化与生态发展 - AI产品化面临模型与产品的鸿沟,需结合领域专业知识构建垂直智能体生态[52][53] - GPT-4o图像功能5天获1亿用户,反映AI应用病毒式传播特性与规模化挑战[35][36] - 经济将因AI驱动产生10倍增长,医疗、教育等领域需定制化解决方案[54][55] 研发趋势与瓶颈 - 基础研究回归成为核心,算法瓶颈重新成为制约AGI进展的关键因素[49][50] - 当前研发受计算资源、数据、算法、电力等多维度限制,需动态平衡[49] - GPT-4暴露可靠性问题,显示AI需突破"隔玻璃观察"的学习模式[50][51]
凯德北京投资基金管理有限公司:软银全力投入ai,能否再造一个奇迹?
搜狐财经· 2025-08-12 20:37
孙正义的AI战略愿景 - 软银创始人孙正义将公司战略重心转向人工智能领域,目标是打造"超人工智能"(ASI),并预言ASI将在未来十年内实现[1] - 孙正义将实现ASI视为个人使命,这种信念驱动软银近年来的重大投资决策[3] - 软银的AI战略覆盖半导体、软件、基础设施、机器人、云服务等多个维度,目标是构建深度整合的AI生态系统[3] 软银的AI投资布局 - 2016年以320亿美元收购Arm,目前估值已升至1450亿美元,Arm正从智能手机芯片转向AI基础设施领域[3] - 2024年3月以65亿美元收购Ampere Computing,强化AI硬件布局[3] - 计划向OpenAI注资约327亿美元,这是继微软之后对该企业的又一笔重大投资[3] 历史背景与战略调整 - 孙正义对AI的远见可追溯至2010年提出的"脑计算机"概念,2014年推出情感机器人Pepper展现前瞻性思考[5] - 2017年成立的Vision Fund曾因投资Uber、滴滴和WeWork等企业而受争议,当时认为自动驾驶是AI首个落地场景但市场成熟度低于预期[5] - 2019年试图投资OpenAI未果,现Vision Fund已全面转向AI领域投资[5] 行业竞争格局 - 中美科技巨头竞逐"通用人工智能"(AGI)制高点,新兴企业不断涌现,如中国企业深度求索推出低成本推理模型[7] - 晨星分析师指出软银投资的AI领军企业技术仍处早期阶段,潜在挑战者可能随时出现[7] - 软银正推动成为"AI时代的核心玩家",从阿里到Arm再到AI全产业链布局的战略延续[7]
从物竞天择到智能进化,首篇自进化智能体综述的ASI之路
机器之心· 2025-08-12 17:51
自进化智能体综述核心框架 - 普林斯顿大学联合多所顶尖机构发布首个系统性自进化智能体综述,旨在建立统一理论框架并为实现通用人工智能(AGI)和人工超级智能(ASI)铺平道路 [2] - 提出围绕"What、When、How、Where"四个维度的完整分析框架,系统梳理前沿技术 [8] - 将智能体系统解构为四大核心组成部分:架构(Γ)、模型({ψi})、上下文({Ci})和工具集({Wi}) [9] - 自进化策略被形式化为转换函数f,输入当前智能体系统(Π)、轨迹(τ)和反馈(r),输出演化后的新系统(Π'),即Π' = f(Π, τ, r) [9] - 终极目标是构建最优自进化策略f,使智能体在连续任务上的累积效用最大化 [9] 演化内容(What to Evolve) - 模型演化包括决策策略优化(如通过自我生成挑战性任务SCA或自然语言反馈在线微调SELF、TextGrad)和经验积累学习(如Reflexion自我反思机制、RAGEN强化学习框架) [13] - 上下文演化涵盖记忆动态管理(如Mem0框架的ADD/MERGE/DELETE机制、Expel提炼可泛化规则)和指令提示自动化优化(如APE候选提示生成、DSPy可微分程序联合优化、MASS多智能体通信优化) [13] - 工具演化分为自主创造新工具(如Voyager探索式学习、Alita响应式代码生成)、已有工具精通(如LearnAct自我纠错循环)以及管理与选择(如ToolGen工具调用生成问题、AgentSquare元学习优化组件配置) [13] - 架构演化针对单智能体(如TextGrad优化工作流节点、Darwin Gödel Machine重写自身源代码)和多智能体系统(如AFlow蒙特卡洛树搜索协作流程优化、ReMA多智能体强化学习协同策略) [14] 演化时机(When to Evolve) - 测试时自进化发生在任务执行期间,例如AdaPlanner通过ICL动态修正计划、利用"self-edits"指令触发即时SFT更新模型权重、LADDER框架通过RL实现即时技能获取 [20] - 测试间自进化发生在任务执行之后,例如STaR和SiriuS通过SFT从成功或失败推理链生成训练数据实现自举式提升、RAGEN和WebRL利用RL在任务间歇期优化策略 [20] 演化方法(How to Evolve) - 基于奖励的演化利用文本反馈(如Reflexion提供自然语言改进建议)、内部奖励(如CISC利用模型置信度自我评估)、外部奖励(如工具执行成功/失败)和隐式奖励(如从模型logits提取内生奖励函数) [21] - 模仿与演示学习通过自我生成演示(如STaR)、跨智能体演示(如共享经验库学习)或混合方式学习高质量范例 [21] - 基于种群的演化方法维护多个智能体变体或团队,通过选择、变异和竞争机制探索解空间,例如Darwin Gödel Machine的开放式代码进化、EvoMAC的文本反向传播机制 [22] 应用场域(Where to Evolve) - 通用领域演化通过记忆机制(如总结历史经验形成可复用知识)、模型-智能体协同进化(如奖励模型与世界模型相互促进)和课程驱动训练(如WebRL自适应生成难度任务)拓展广泛任务能力 [25] - 特定领域演化在垂直领域深耕,例如编码领域SICA自主修改代码库、GUI领域通过真实交互学习界面操控、金融领域QuantAgent优化量化策略、医疗领域Agent Hospital提升诊断能力、教育领域PACE个性化调整教学策略 [25] 评估范式 - 提出五大评估目标:适应性(Adaptivity)、知识保留(Retention)、泛化性(Generalization)、效率(Efficiency)和安全性(Safety) [28] - 评估模式分为静态评估、短时程自适应评估和长时程终身学习评估 [28] - 适应性通过迭代步骤成功率(如65、29、247项研究)和适应速度(如Voyager)衡量;知识保留通过遗忘率(FGT)和反向迁移(BWT)衡量;效率通过Token消耗、时间支出和工具生产率衡量;安全性通过安全评分、危害评分和泄漏率等衡量 [29] - 代表性基准测试包括ScienceAgentBench(102项科学数据分析任务)、SWE-bench(2,294项软件工程任务)、OSWorld(GUI任务)、LifelongAgentBench(1,396项长时程任务)和AgentBench(1,360项通用任务) [31]
商汤林达华万字长文回答AGI:4层破壁,3大挑战
量子位· 2025-08-12 17:35
核心观点 - 多模态智能是当前AI发展的关键趋势,商汤科技通过"原生多模态"技术路线和"四次破壁"演进框架,推动通用人工智能(AGI)的发展 [1][2][4][6] - 商汤科技发布的日日新6.5模型实现了"图文交错思维"突破,标志着多模态推理能力的显著提升 [16][21] - 公司通过统一融合模型架构、优化数据生产体系和创新组织模式,在多模态领域保持领先优势 [12][25][40][41] 多模态智能的重要性 - 智能的核心是与外界进行自主交互的能力,而世界是以多元形态存在的,仅依赖文本数据的语言模型无法构建真正的AGI [7][8] - 多模态模型必须能够处理和理解图像、声音、视频等多种模态的信息,才能具备通用性 [8] - 商汤将多模态锚定为技术主轴,从日日新6.0开始只发布多模态模型,这在国内大模型厂商中独树一帜 [12] 技术路径选择 - 实现多模态模型主要有两种技术路径:适应训练(嫁接模式)和原生训练(融合模式) [11] - 商汤通过大规模对比实验确立了"原生多模态"技术路线,采用从预训练阶段就混合多种模态数据的融合模式 [10][11] - 实验证明,在合适的数据配比下,一个原生多模态融合模型在纯文本和图文任务上的表现都优于各自独立的专门模型 [23] 四次破壁演进框架 - 第一次破壁:Transformer实现长序列建模,为大语言模型奠定基础 [14] - 第二次破壁:语言与视觉会合形成多模态理解,模型学会跨模态关联 [15] - 第三次破壁:突破逻辑与形象思维边界,实现多模态推理,日日新6.5引入"图文交错思维链" [16] - 第四次破壁:突破与物理空间边界,实现与真实世界交互,即具身智能 [22][24] 数据体系构建 - 多模态训练最关键的数据是强关联的"图文对",商汤通过大规模自动化构造解决了稀缺问题 [26][27] - 建立"续训验证"机制确保数据质量,只有能带来性能增益的数据才会被准入 [28][29] - 采用"人写种子+自动扩展+强化学习"三段式方法获取高阶专业数据 [31][32][33][34] 模型架构优化 - 模型架构设计的核心是效率,而非单纯追求更大参数规模 [36] - 日日新6.5推动视觉编码器轻量化(参数量从60亿减至10亿),同时使MLLM主干网络更深更窄 [38] - 架构调整结合数据优化使模型效率提升超过3倍,实现比肩顶级模型的效费比 [38][39] 创新力源泉 - 计算机视觉起家的技术基因使公司对多模态价值有更早更深刻的理解 [40] - 重构研究组织实现资源统一调度,设立专项创新小组探索高风险高回报方向 [41] - 构建"基础设施-模型-应用"三位一体的正向循环,使技术理想与商业价值相互促进 [42][43]
全球多模态推理新标杆 智谱视觉推理模型GLM-4.5V正式上线并开源
证券日报网· 2025-08-12 16:46
产品发布 - 公司推出全球100B级效果最佳的开源视觉推理模型GLM-4.5V 总参数106B 激活参数12B 并在魔搭社区与HuggingFace开源[1] - 模型基于新一代旗舰文本基座模型GLM-4.5-Air 延续GLM-4.1V-Thinking技术路线[2] - 在41个公开视觉多模态榜单中综合效果达到同级别开源模型SOTA性能 涵盖图像 视频 文档理解及GUI Agent等任务[2] 性能表现 - 在通用VQA任务中 MMBench v1.1得分88.2 MMBench v1.1中文版得分88.3 MMStar得分75.3 BLINK验证集得分65.3[3] - 在STEM领域 MMMU验证集得分75.4 MMMU Pro得分65.2 MathVista得分84.6 MathVision得分65.6[3] - 在GUI Agent任务中 OSWorld得分35.8 AndroidWorld得分57.0 WebVoyagerSom得分84.4[3] - 视频理解方面 VideoMME无字幕版得分74.6 有字幕版得分80.7 MMVU得分68.7 VideoMMMU得分72.4[3] 技术特性 - 模型具备全场景视觉推理能力 包括图像推理 视频理解 GUI任务 复杂图表与长文档解析及Grounding能力[5] - 新增思考模式开关 用户可选择快速响应或深度推理[5] - 支持64K多模态长上下文 通过三维卷积提升视频处理效率 采用双三次插值机制增强高分辨率图像处理能力[6] - 引入三维旋转位置编码3D-RoPE 强化多模态信息的三维空间关系感知能力[6] - 采用三阶段训练策略 预训练阶段使用大规模图文交错多模态语料 监督微调阶段引入显式思维链格式训练 强化学习阶段采用全领域多模态课程[6] 商业化应用 - API调用价格低至输入2元每百万tokens 输出6元每百万tokens 为企业与开发者提供高性价比多模态AI解决方案[5] - 模型在保持高精度的同时兼顾推理速度与部署成本[5] 行业地位 - 多模态推理被视为通向通用人工智能的关键能力 视觉-语言模型是实现多模态推理的核心基础[7] - 公司7月发布的GLM-4.1V-9B-Thinking模型曾登上HuggingFace Trending榜首 累计获得超过13万次下载[7]
智谱推出全球100B级最强开源多模态模型GLM-4.5V:获41个榜单SOTA
IPO早知道· 2025-08-12 09:52
智谱GLM-4.5V模型发布 - 公司于8月11日正式推出全球100B级效果最佳的开源视觉推理模型GLM-4.5V(总参数106B,激活参数12B),并在魔搭社区与Hugging Face开源 [3] - 该模型基于新一代旗舰文本基座模型GLM-4.5-Air,延续GLM-4.1V-Thinking技术路线,在41个公开视觉多模态榜单中综合效果达到同级别开源模型SOTA性能 [4] - 模型具备全场景视觉推理能力,包括图像推理、视频理解、GUI任务、复杂图表与长文档解析以及Grounding能力 [5] 技术架构与性能表现 - 模型由视觉编码器、MLP适配器和语言解码器三部分组成,支持64K多模态长上下文,采用三维卷积提升视频处理效率 [6] - 引入双三次插值机制增强高分辨率图像处理能力,采用三维旋转位置编码(3D-RoPE)强化多模态信息的三维空间关系感知 [6] - 在多项基准测试中表现优异,如MMBench v1.1得分88.2、MMMU (val)得分75.4、MathVista得分84.6、OCRBench得分86.5等 [5] 训练方法与开发支持 - 采用三阶段训练策略:预训练阶段强化复杂图文及视频处理能力,SFT阶段引入显式"思维链"格式训练样本,RL阶段通过多领域奖励系统进行全面优化 [8] - 同步开源桌面助手应用,可实时截屏、录屏获取屏幕信息,处理多种视觉推理任务 [8] - 公司希望通过模型开源和API服务赋能开发者,基于多模态基座模型开发创新应用 [9] 行业影响与定位 - 多模态推理被视为通向AGI的关键能力之一,视觉-语言模型(VLM)是实现多模态推理的核心基础 [3] - 此前7月发布的GLM-4.1V-9B-Thinking模型曾登上Hugging Face Trending榜首,累计获得超过13万次下载 [3] - 本次发布标志着公司在通向通用人工智能(AGI)道路上的又一探索性成果 [3]
用时间积累换突破——月之暗面专注通用人工智能领域
经济日报· 2025-08-12 06:12
公司概况 - 北京月之暗面科技有限公司(Moonshot AI)成立于2023年4月,专注于通用人工智能(AGI)研发,目标是探索智能极限并实现普惠AI [1] - 公司位于北京海淀区中关村,拥有约300名员工,其中50%为90后,团队涵盖算法、工程、产品及运营领域的顶尖人才 [2] - 创始人杨植麟具有10年自然语言处理(NLP)研究经验,团队具备超大规模计算集群运维和深度学习框架开发能力 [1][2] 技术产品 - 核心产品Kimi智能助手于2023年10月上线,是全球首个支持20万字长文本处理的AI助手,半年后长文本能力扩展至200万字 [2][4][5] - 2024年7月发布开源大模型Kimi K2,参数规模达万亿级别但激活参数仅320亿,成本效益显著提升 [3][6] - Kimi K2在多项基准测试中表现优异,特别在自主编程、工具调用和数学推理三方面能力突出,成为全球开源模型榜单前五名中唯一的开源模型 [6] - 产品线持续扩展,包括K1.5视觉思考模型、Kimi-Researcher深度研究模型及浏览器助手等 [2] 技术创新 - 坚持无损数据压缩技术路线,拒绝滑动窗口等捷径方案,实现200万字长文本处理突破 [5] - 首次将创新优化器应用于万亿参数规模模型训练,验证了训练效率的技术突破 [8] - 开发具备Agent能力的模型,可自主探索使用工具并与电子/真实世界交互,推动AI进入智能体时代 [7][8] - 开源策略使Kimi K2成为API调用量和下载量增长最快的大模型,将顶尖技术能力开放给开发者社区 [6] 市场表现 - 2024年Kimi用户量实现100倍增长,从几十万跃升至数千万级别 [5] - Kimi K2已接入部分国际主流开发平台,在3D/游戏/动画制作等场景展现强大交互能力 [3][7] - 产品演示显示可在4分钟内根据指令创建3D森林环境,并具备软件开发、英语学习应用创建等多元功能 [7] 发展理念 - 坚持"技术理想主义",通过长期积累实现突破,专注通用人工智能而非垂直领域解决方案 [8] - 追求"将能源转化为智能的最优解",致力于发展通用泛化能力而非单一技能 [8] - 产品设计强调个性化定制,打破技术专用性壁垒,实现"代码人人可用"的普惠目标 [7]