Artificial General Intelligence (AGI)
搜索文档
DeepSeek又更新了,期待梁文锋「炸场」
新浪科技· 2025-08-21 08:52
DeepSeek模型升级 - 线上模型升级至V3 1版本 参数量从671B增至685B 模型尺寸变化不明显但交互体验和推理能力有提升 [1][5] - 上下文长度扩展至128K 支持更大长文本输入 信息收集环节更多使用表格汇总 回答语气更自然符合人类表达习惯 [4][6] - 编程能力在多语言测试中以71 6%得分击败Claude 4 Opus 较R1有进一步改进 能完成复杂指令如设计宫崎骏风格五子棋游戏并生成可交互代码 [7] 模型部署优化 - V3与R1模型合并部署 从原来分开部署各需60张卡变为合一部署仅需60张卡 部署成本大幅下降 [11][12] - 若使用120张卡部署V3 1 因缓存增大性能预估可提升3-4倍 此次更新主要针对降本 [12] - 深度思考按钮从"深度思考(R1)"变为"深度思考" 意味着调用模型可能不再局限于R1 或是V3/R1合并后的新模型 [9] 用户增长与行业影响 - R1发布当月用户增长达1 25亿 80%以上来自1月最后一周 日活跃用户数在1月28日首次超越豆包 成为全球增速最快AI应用之一 [13] - 开源做法被业界借鉴 腾讯元宝、百度、360等新产品集成其满血版模型 [14] - 各大厂商以R1为参照物 阿里巴巴Qwen3-235B-A22B声称超越R1 月之暗面Kimi K2和智谱GLM-4 5也宣布超越R1且API价格低至0 8元/百万tokens [15][17] 行业动态与期待 - R2作为R1后续产品备受行业关注 但8月内无发布计划 V3 1更新后8月可能无更大版本发布 [2][19] - 公司对商业化不感兴趣 专注打磨基础模型确保每代领先 市场期待值强烈 [20] - V3和R1合并部署可能为多模态模型发布作准备 因分开部署负担重 多模态模型发布或已不远 [23]
OpenAI总裁透露GPT-5改了推理范式,AGI实现要靠现实反馈
36氪· 2025-08-18 19:02
技术范式转变 - 从文本生成转向强化学习推理范式 通过现实世界试错和反馈提升模型可靠性 [1][6][8] - 新范式大幅降低数据需求 预训练需数十万示例而强化学习仅需10-100个任务即可学习复杂行为 [8] - GPT-5作为首个混合模型实现推理过程持续生成数据 通过强化学习将现实观测结果反馈至模型 [4][8] 计算资源战略 - 计算能力是AGI开发主要瓶颈 计算量直接决定AI研究与发展速度深度 [3][9] - 通过扩大计算资源可突破算法壁垒 如Dota项目内核数量翻倍实现性能持续提升 [9] - 当前强化学习范式需数万次尝试完成任务 深层学习需更多计算资源实现知识体系更新 [10][11] - 计算作为基本燃料可转化为模型权重势能 训练完成后可在多任务中分摊成本 [11] 模型架构演进 - AGI将呈现模型管理器形态 结合小型本地模型与大型云推理器实现自适应计算 [11] - GPT-5采用多模型混合路由机制 通过条件语句选择推理模型(深度智能)或非推理模型(快速输出) [12] - 复合式模型根据任务需求组合不同能力成本模型 提升计算灵活性 [12] 落地应用策略 - 将模型封装成Agent作为可审计服务进程 实现与人类协作式交互且具备可控性与回滚能力 [1][13][15] - 采用双层纵深防御架构:模型内部按可信度排序指令防范注入 外部通过多级沙箱确认高危操作 [15] - 通过后训练去除不受欢迎人格类型 再通过公开竞技场实时评分实现模型与社会偏好协同进化 [15][16] 行业发展机遇 - 各行业存在大量未开发应用场景 需深入理解行业链条细节而非简单接口封装 [3][18] - 技术发展机遇随曲线陡升倍增 需保持好奇心投入新领域 [22] - 计算资源将成为未来稀缺资产 即使物质需求满足仍需要更多算力支持高分辨率与复杂个性化体验 [20]
GPT-5“让人失望”,AI“撞墙”了吗?
华尔街见闻· 2025-08-18 18:44
GPT-5发布与市场反应 - GPT-5未能带来革命性突破,引发市场失望情绪,用户反馈其犯低级错误且基准测试表现平平[1][2] - OpenAI CEO承认发布"坎坷",因底层"自动切换器"失灵导致调用较弱模型[3] - 行业专家指出GPT-5未展示全新能力,与AGI实现预期存在显著落差[4] 技术瓶颈与行业竞争 - "规模定律"逼近极限,面临数据枯竭和算力经济性双重制约,GPT-5训练消耗数十万颗英伟达下一代处理器[6] - 竞争对手如Google、Anthropic、DeepSeek等已缩小与OpenAI的技术差距,行业从一家独大转向多强竞争[4] - 纯文本LLM进入回报递减阶段,多模态"世界模型"被视为潜在突破方向[8] 资本市场与商业应用转向 - AI投资占全球风投总额33%,英伟达市值达4.4万亿美元,OpenAI投资方软银股价月涨超50%[7][10] - ChatGPT年经常性收入达120亿美元,产品化替代AGI叙事成为投资新焦点[10] - 企业战略转向产品落地,OpenAI派遣工程师驻场客户公司协助模型集成[9] 行业发展趋势 - 技术焦点从模型能力冲刺转向成本效益优化,GPT-5在任务执行速度和性价比上表现突出[8] - 风险资本认为当前模型潜力开发仅触及皮毛,消费和商业应用存在巨大未挖掘价值[11] - 行业共识认为即使AGI进展放缓,基于现有技术的创新仍能创造显著商业价值[2][11]
Did Meta CEO Mark Zuckerberg Just Hint at Microsoft Investors' Worst Nightmare?
The Motley Fool· 2025-08-12 16:44
公司市场地位 - 微软为全球市值第二大公司 今年股价涨幅在"七巨头"中位列前三 [1] - 微软为大型科技股中市场表现最热门的公司之一 [1] Meta人工智能战略 - Meta推出超级智能新计划 可能改变与微软的竞争格局 [2] - 公司旨在为所有人提供个人超级智能 帮助实现目标并提升创造力 [3][4] - 过去数月已观察到AI系统自我改进的迹象 超级智能开发目标在望 [5] 对微软业务的潜在影响 - Meta超级智能可能导致用户减少生产力软件使用时间 转向更多创作与社交活动 [6][9] - 微软生产力与业务流程部门在2025年6月季度创造331亿美元收入 占公司总营收43% [7] - LinkedIn收入估计占该部门营收不足15% 主要收入仍来自生产力软件 [8] - 生产力软件收入大幅削减将成为微软投资者的重大担忧 [9] 技术可行性分析 - 技术高管的历史预测存在未实现先例 Meta超级智能计划成功与否尚存疑问 [11] - 关键区别在于AI可能继续使用生产力软件 而非完全取代 [12] - 微软正大力投资AI替代人工完成生产力软件任务 [13]
GPT-5数字母依然翻车!马库斯:泛化问题仍未解决,Scaling无法实现AGI
量子位· 2025-08-11 18:12
GPT-5性能缺陷 - 在字母计数任务中出现错误,如将blueberry中的b错误计数为3个而非实际2个[2][6] - 变换提示词策略后仍坚持错误答案,如将单词开头blue中的b重复计数两次[5][6] - 被直接纠正后仍出现位置漂移错误,如将第三个b的位置从第七字母错误定位到第六字母[9] 多模态与逻辑推理问题 - 在图像识别任务中无法识别异常特征,如将5条腿的斑马和3条腿的鸭子判断为正常生物[27] - 国际象棋规则理解存在缺陷,仅4个回合后就出现非法移动操作[23] - 伯努利原理演示现场出现翻车情况[21] 模型泛化能力局限 - 思维链(CoT)方法在训练分布外失效,表明模型泛化能力不足[33] - 存在持续30年未解决的分布漂移问题,影响模型泛化性能[38] - 最新模型仍存在与1998年神经网络相同的泛化问题[37] 技术路线争议 - 缩放法则(Scaling)被质疑无法实现AGI目标[40] - Transformer中的注意力机制被认为并非终极解决方案[40] - 神经符号(Neuro-symbolic)AI被提出作为解决泛化问题的替代路径[41]
GPT-5降价反击!OpenAI打响B端争夺战
第一财经资讯· 2025-08-09 21:01
GPT-5发布与技术特点 - 新一代GPT-5发布,距GPT-4发布已过去2年4个月24天,但未展示出AGI能力或全新功能[2] - 主要优化为幻觉降低:比GPT-4o低45%,比OpenAI o3低80%[2][14] - 被定义为「统一的系统」而非单一模型,包含基础模型、深度推理模型和自动调度的「路由器」[4][19] 定价策略与市场竞争 - 输入价格降至1.25美元/百万tokens(GPT-4o为2.5美元),输出保持10美元/百万tokens,显著低于Claude Opus 4(75美元)和Gemini 2.5 Pro(15美元)[4][5] - 目标直指B端专业开发者市场,当前Anthropic占据32%份额,OpenAI仅25%,较2023年50%份额大幅下滑[6][8] - 通过降低token消耗(编码场景减少22%)和工具调用次数(减少45%)优化成本[15] 能力提升与工程优化 - 编码能力提升:SWE-Bench准确率74.9%(o3为69.1%),多步骤指令遵循69.6%(o3为60.4%)[14] - 新增「最低推理强度」功能,可平衡响应速度与工具调用频率[15] - 开源两款推理模型并登陆AWS平台,打破此前与微软的独家授权限制[15] 产品设计与用户策略 - 取消多模型选择功能,自动根据问题复杂度调用基础或深度推理模型(需通过特定prompt触发)[19][21] - 简化前端交互,将复杂技术封装至后台,例如自动联网搜索功能[22] - C端用户增长迅猛:周活达7亿(3月为5亿),年化收入120亿美元[16] 行业趋势与竞品动态 - Anthropic因长上下文、稳定推理和强编码能力赢得AI Coding等新兴B端市场[11] - 阿里巴巴通义千问曾推出类似自动调度功能但后续停用,反映B端与C端需求差异[22][24] - 专业开发者反馈被视为模型迭代关键,推动OpenAI战略重心向B端倾斜[15]
独家|陈天桥布局端到端Deep Research生态赛道,MiroMind发布全栈开源深度研究项目ODR
Z Potentials· 2025-08-09 12:50
公司概况 - 专注于构建具有自主意识的数字Agent,目标是为全人类实现安全可控的AGI,核心理念是AGI为持续迭代的动态系统而非固化模型 [2] - 愿景成为人工智能创新领域的全球领军者,聚焦基础模型及下一代智能关键技术的前沿探索,强调长期主义、开发者友好和系统开放理念 [2] - 由前中国首富陈天桥创办,其曾创立盛大网络并保持中国最年轻内地首富纪录(31岁),近年All in AI+脑科学领域,孵化多家AI创业公司并捐赠5000万元成立复旦天桥人工智能研究院 [4] 技术架构与性能 - 全栈开源生态系统:包含Agent框架(MiroFlow)、模型(MiroThinker)、数据(MiroVerse)和训练基础设施(MiroTrain/MiroRL),所有组件开放共享 [1][8] - SOTA级性能:MiroFlow搭配商用模型API在GAIA验证集得分82.4,超越现有商用API;搭配开源MiroThinker模型在GAIA-Text-103数据集达60.2%性能,接近OpenAI Deep Research水平 [1][15] - 可复现性:MiroFlow框架代码和配置开源,第三方可复现GAIA验证集82.4的高性能表现 [13] 核心团队与技术背景 - 清华电子工程系副教授代季峰领衔,其研究成果包括可变形卷积Deformable ConvNets(PyTorch标准算子)、BEVFormer(自动驾驶多相机感知里程碑)、UniAD(CVPR 2023最佳论文)等 [5][6] - 代季峰开发的InternVL多模态基础模型Hugging Face下载量超1000万次,论文总引用6万余次 [6] 开发者生态 - 提供147k开源训练数据(MiroVerse),按月更新并响应社区反馈 [12] - 社区活动包括竞赛、排行榜、Hackathons,开发者可直接影响项目发展 [1][22] - 支持数据需求提报、功能定制与技术挑战,覆盖数据工程师、AI研究员等多角色参与 [22] 行业定位与竞品对比 - 对标OpenAI Deep Research概念,构建开源协作的深度研究生态系统(Agent框架+模型+数据+训练设施) [7] - 在GAIA性能表现上显著领先竞品:MiroMind ODR得分82.4,远超OpenAI Deep Research(67.4)、Manus(73.3)等 [10]
GPT-5:让每个人都成为超级个体|AI产品榜
36氪· 2025-08-08 21:34
全球AI网站访问量排名 - ChatGPT以59.1亿月访问量位列全球第五大网站,距离第四名Instagram仅差6.6亿访问量,按当前6.03%的增速预计将在9月超越Instagram [7][8] - 全球前五大网站依次为:Google(27年)、YouTube(20年)、Facebook(21年)、Instagram(15年)、ChatGPT(3年)[7] - 全球TOP100 AI产品月访问总量达126.89亿,其中国产产品占比10%(13.34亿),国产产品数量占比25%(25个)[23] ChatGPT发展态势 - GPT-5新功能显著提升用户粘性:邮件/日历链接功能使ChatGPT可管理用户日程,预计用户粘性将提升5倍 [14][15] - GPT-5编程能力降低开发门槛,预计将推动ChatGPT访问量增长,有望超越Facebook(当前差距1倍)[11][12] - ChatGPT 7月访问量增速6.03%,主要竞争对手Gemini增速7.88%,Claude增速10.47% [24][47] AI细分领域表现 - 代码辅助类产品增长迅猛,全球TOP100中占10个席位,仅次于聊天机器人 [10][37] - 图片生成领域:SeaArt增速24.28%领先,Midjourney保持15.82%增长 [53][54] - 视频生成领域:Creati增速达4612.21%位列第一,Sora访问量50.99M但增速-2% [57][58] - 国内增速最快产品:扣子空间(56.31%)、魔搭社区(37.98%)、扣子(27.9%)[42][43] 国内AI产品表现 - 国内总榜前三:DeepSeek(3.45亿)、纳米AI搜索(3.32亿)、纳米AI(1.97亿)[28] - 出海表现最佳产品:SeaArt(2822万)、Manus(1807万)、Fotor(1688万)[32][33] - 国内云服务商:阿里云(3061万+16.05%)、腾讯云(2050万+4.93%)、火山引擎(541万+2.03%)[65] 行业趋势 - AI产品榜覆盖10000+产品,跟踪100+细分领域,已成为行业数据基准 [75] - 代码辅助工具面临GPT-5冲击,预计部分产品将被淘汰 [38] - 全球AI应用MAU排名:ChatGPT(4亿)、豆包(8191万)、DeepSeek(6181万)[74]
The Intelligence Toll: Why Every Fortune 500 Company Could Pay Nvidia by 2035
The Motley Fool· 2025-08-08 19:15
核心观点 - 如果通用人工智能(AGI)在2030年前实现,英伟达将从芯片供应商转变为全球智能基础设施的收费平台,其商业模式将发生根本性转变 [1][2] - 公司当前40倍前瞻市盈率的估值在传统半导体框架下显得昂贵,但在AGI场景下可能被低估 [1] - 公司可能通过收取"智能通行费"的方式,从每个自主决策、模拟实验和跨行业AI代理中获取持续收入 [2] 财务预测 - 2025财年收入达到1305亿美元,较前一年翻倍 [4] - 华尔街预计2027财年收入将达2540亿美元 [4] - 假设2027-2035年复合增长率19%,2035年收入可能达到1万亿美元 [5] - 按45%净利率和20倍市盈率计算,市值可能达到9万亿美元,对应股价369美元(较当前翻倍) [5] - 乐观情景下若占据5万亿美元AGI计算市场的50%,股价可能达615美元 [6] 行业趋势 - 微软已承诺投入1000亿美元建设AI数据中心 [7] - 沙特、阿联酋和日本合计承诺900亿美元主权计算投资 [7] - OpenAI每年在英伟达硬件上支出70亿美元 [7] - Salesforce报告已有8000多家客户使用其AI代理 [9] - 制药行业可能通过AGI模拟所有可能的药物相互作用 [9] 竞争壁垒 - CUDA生态系统经过15年建设,拥有200万开发者 [10] - 迁移出CUDA生态需要承担数亿美元成本(如GPT-4级别模型需1亿美元重训费用) [10] - 即使拥有自研芯片的科技巨头(如Alphabet、特斯拉)仍采购英伟达GPU [11] - 主要AGI研发机构(OpenAI、Anthropic、xAI)均采用英伟达技术栈 [11] - 在AI推理领域面临AMD和云巨头的竞争压力 [12] 商业模式演变 - 从GPU销售转向成为"智能基础设施计费系统" [2] - 未来可能按计算周期收费的"智能通行费"模式 [2] - 当前业务仍以AI训练GPU为主,尚未充分定价AGI带来的需求爆发 [8][9] - 公司正在铺设AGI时代的基础设施轨道 [13]
GPT-5没有追求AGI,它代表的是OpenAI的商业化野心
36氪· 2025-08-08 18:28
模型性能对比 - GPT-5在AIME '25测试中达到94.6%准确率,领先Gemini 2.5 Pro的93.8%和Claude 4.1的94.1% [1] - FrontierMath测试中GPT-5表现26.3%,略低于Gemini 2.5 Pro的27.1% [1] - GPQA diamond测试GPT-5获得85.7%准确率,与Claude 4.1的85.9%接近 [1] - HMMT 2025测试GPT-5以93.3%领先其他模型 [1] 技术突破 - GPT-5采用新型合成数据训练方法,通过GPT-4o等前代模型生成高质量训练数据 [3] - 合成数据流程专门设计用于生成"正确类型数据",提升模型推理和规划能力 [3] - 在Tau²-bench电信领域测试中达到96.7%准确率,显著优于GPT-4.1的34% [7] - 上下文长度扩展至400k,思考过程token消耗减少50%-80% [20] Agent能力提升 - GPT-5优化了工具调用能力,支持自然语言描述触发工具使用 [8] - 具备出色的工具并行使用能力,可判断工具运行顺序与并行性 [8] - 在智能体式编码测试中表现优异,一次性解决其他模型无法完成的任务 [15] - 编程时采用"边想边做"的迭代方式,优于Claude 4 Opus的"想清楚再做"模式 [15] 商业化策略 - ChatGPT周活用户超过7亿,付费用户达500万,订阅收入27亿美元 [18] - API定价策略激进,输入1.25美元/百万tokens,输出10美元/百万tokens [18] - 价格直接对标Gemini 2.5 Pro,大幅低于Claude 4 Opus的75美元/百万tokens输出 [19] - 推出DeepResearch、Canvas编辑、生图功能等商业化导向的产品升级 [18] 行业趋势 - 2025年AI应用领域最热关键词为Agent,OpenAI引领此波热潮 [6] - 主流模型厂商均以Agentic AI为目标优化模型能力 [6] - 大语言模型进步呈现渐进式而非跨越式,可能遭遇技术瓶颈 [21] - AI应用市场呈现快鱼吃慢鱼特征,大厂在创新速度上不占优势 [21]