General Artificial Intelligence (AGI)
搜索文档
刚刚,GPT-5 Pro自证全新数学定理,OpenAI总裁直呼颠覆,大佬们集体转发
36氪· 2025-08-21 11:13
AI数学问题解决能力突破 - GPT-5 Pro独立攻克数学论文中关于梯度下降法步长η的未解区间问题 从零开始且未参考人类已有证明方法[1][6][15] - 模型将已知下限从1/L推进至1.5/L 证明过程被评价为非常优雅[6][12][17] - 该证明与论文作者后续发布的v2版本证明方法完全不同 属于v1证明的演进[12][15] 技术实现细节 - 研究针对光滑凸优化中梯度下降步长η与函数值曲线凸性的关系 未解决区间原为[1/L, 1.75/L][2][3][5] - 论文v1版本证明η<1/L时成立 η>1.75/L时存在反例[3] - 人类作者在v2版本中将阈值改写为1.75/L 彻底解决该问题[12] 行业影响与评价 - OpenAI总裁Greg Brockman认为这可能是AI在数学领域展现生命力的迹象[13][14] - 此次突破由面向用户的GPT-5 Pro版本实现 而非内部推理模型[15] - 前微软AI副总裁Sebastien Bubeck用25分钟验证结论 确认AI实际证明该问题[17][20] 研究者背景与方向 - Sebastien Bubeck现任OpenAI研究工程师 专注智能涌现与AGI物理学研究[18][21][22] - 拥有微软研究院10年工作经验 曾获STOC2023、NeurIPS2018/2021等多个最佳论文奖[20] - 职业生涯前15年主要研究凸优化、在线算法及机器学习对抗鲁棒性[20]
OpenAI史上最大失误:放走这位MIT学霸,美国AI「三朝元老」,现实韦小宝
36氪· 2025-08-21 08:39
AI算力基础设施规模 - AI基础设施规模超越阿波罗登月与曼哈顿计划[1] - AGI算力投入年增速高达3倍[2] - 2027至2028年算力增长存在不确定性[3] Anthropic发展历程 - 公司由OpenAI前团队成员联合创立[4] - 初创团队仅7人且缺乏明确产品规划[5] - Claude系列产品现已成为全球开发者首选工具[7] - 公司员工规模已超2000人且保持使命驱动文化[36] 技术突破与市场表现 - GPT-3训练实现从TPU到GPU的算力架构转型[29] - Scaling Law证明算力规模与智能水平呈正相关[31] - Claude 3.5 Sonnet版本实现编程场景市占率从个位数升至80%-90%[37] - Claude Code通过"心智切换"理论实现智能体式编程突破[41][42] 人才发展与行业趋势 - 线性代数B-成绩者通过自学成为AI核心研发人员[3][19] - 分布式系统与机器学习复合型人才极为稀缺[25] - 行业更注重内在驱动而非传统学历认证路径[46][47] - FAANG公司职业路径价值在AI时代被重新评估[48]
GPT-5 能让普通人变成博士,但魔法依旧没有
36氪· 2025-08-08 11:50
产品发布与核心能力 - OpenAI发布GPT-5 模型系统 具备256k token上下文窗口 支持文本和图像输入 函数调用和结构化输出[12] - 模型自动判断查询意图 简单问题路由到极速响应版本 复杂问题路由到深度思考版本[13][14] - 在数学领域AIME 2025测试得分94.6% 真实世界编码SWE-bench Verified得分74.9% 多模态理解MMMU得分84.2% 健康领域HealthBench Hard得分46.2%[18] - 在GPQA测试中无需工具得分88.4% 凭借扩展推理能力创下新高[18] - 幻觉显著降低 启用搜索时事实性错误比GPT-4o减少45% 思考模式下比OpenAI o3降低80%[25] - 欺骗行为大幅改善 对不存在图像给出自信答案的概率从o3的86.7%降至9%[27] - 思考效率提升 在视觉推理 代理编码和科学问题解决中输出token数量减少50%至80%[28] 实际应用与用户体验 - 能够生成交互式应用 例如用一句话创建流体力学伯努利公式的可互动页面[3] - 支持定制化学习工具生成 如法语学习应用 并可通过自然语言修改应用功能[5] - 为创业公司CFO生成详细财务状况演示板 仅需100字描述 3分钟内完成[7] - 通过3段提示词生成带射击游戏功能的3D城堡模型 包含音效和交互元素[7] - 在医疗健康领域提供专业建议 帮助癌症患者理解治疗方案并做出决策[9][11] - 成为最强大编码工具 可一次性创建美观且响应迅速的网站 应用程序和游戏[15] - 作为最强大写作工具 处理结构模糊文本如抑扬格五音步或自由诗 辅助起草报告 邮件等[17][18] 性能评估与行业地位 - 在LMArena排行榜以1481分位列第一 超越Gemini 2.5 Pro的1460分和o3的1450分[21][22] - 在Intelligence Analysis评测中获得第一名[22] - 被类比为博士级专家水平 而GPT-4o仅为大学生水平[1][32] - 但被部分行业人士评价为"非巨大飞跃" 未达到AGI水平 Grok 4在ARC-AGI-2测试中表现更优[36][37] 商业化与定价策略 - API定价极具竞争力 输入价格1.25美元/百万token 输出价格10美元/百万token[30][31] - 价格低于Claude Opus 4的15/75美元和Gemini 2.5 Pro的2.5/15美元 与Gemini 2.5 Pro低价版本持平[31] 市场反响与争议 - 发布会持续时间超1小时 较以往半小时显著延长 体现公司重视程度[32] - 发布会图表出现严重错误 SWE-bench数据标注混乱 引发公众质疑[33][35] - 马斯克宣称Grok 4 Heavy比GPT-5更智能[35] - 学者指出需关注实际性能 利润模式仍不清晰 技术护城河尚未明确[37]
这家百人“作坊”,凭什么年入70亿,还成了OpenAI的“御用陪练”?
36氪· 2025-08-02 08:03
公司概况 - Surge AI是一家专注于高质量数据标注的AI公司,仅有110名正式员工,却在2024年创造了超过10亿美元的年营收,反超行业巨头Scale AI [1] - 公司正启动首轮融资,目标募资10亿美元,估值或达150亿美元 [1] - 创始人Edwin Chen是37岁的华人理工男,曾任Twitter工程主管,对行业痛点有深刻理解 [3][7] 商业模式创新 - 重构数据标注行业竞争维度,形成"极致质量 × 精英团队 × 自动化系统 × 使命感文化"的乘法模型 [10] - 专注RLHF(基于人类反馈的强化学习)等高价值环节,收费是同行的2-5倍,项目最低门槛数百万美元 [13] - 开发智能人机协同系统,110人团队每周处理数百万条高质量数据,人均产出是Scale AI的近9倍 [16][17] 人才战略 - 筛选全球最顶尖的1%标注人才,包括博士、硕士,将其视为"AI工程师"而非"数据工人" [11] - 创始人对初创公司招聘有独特见解,认为早期应追求10-100倍突破而非微调,产品方向应由创始人亲自把控 [12] - 通过使命感凝聚团队,标注者被视为"AI的父母",许多高学历人才因能实践毕生所学而长期工作 [19] 行业对比 - 2024年营收10亿美元,超过Scale AI的8.7亿美元 [21] - 与传统模式相比,解决了质量堪忧、效率低下、价值密度低三大痛点 [6][7][9] - 与Snorkel AI的程序化标注相比,更擅长需要人类价值观和常识判断的复杂任务 [23] - 与Turing的专家众包平台相比,通过自研平台将精英人才整合成高效协同团队 [24] 核心优势 - 重新定义行业问题:AI需要的是蕴含人类智慧的"养料"而非简单"标注" [25] - 打破"数据=劳力"的铁律,证明"更聪明的人力+更聪明的系统"可超越线性规模增长 [25] - 构建了包括人才、技术、文化在内的全方位质量导向体系 [10][19] - 创始人坚持不卖公司,以"培育AGI"为使命,形成难以复制的精神护城河 [17][19]
大部分AI产品撑不过10年
是说芯语· 2025-08-01 12:23
AI技术本质与发展路径 - AI、AGI、ASI三者没有本质区别,是一个持续演进的过程而非阶段性飞跃 [5][9][10] - 当前AI技术已从解决"玩具问题"转向处理现实复杂问题,带来思维方式变革 [7][8] - 算力百万倍提升将彻底改变任务规划逻辑,如同交通工具升级改变行程规划方式 [8] 中国AI产业现状与竞争格局 - 行业处于马拉松早期阶段,企业尚未建立不可逾越的壁垒,新玩家仍有入场机会 [3][17] - 中国AI进步由DeepSeek、阿里巴巴、月之暗面等企业良性竞争推动 [3][16] - 中国市场不仅是销售渠道,更是技术成熟的关键试验场,可快速验证数百万种AI可能性 [15] - 杭州等区域创业氛围浓厚,约每4-5人中就有1位CEO,形成创新生态 [17] 技术商业化与行业前景 - 仅1%技术能转化为生意,云计算因基础设施属性可能持续繁荣50-100年 [22] - 当前AI模型能力已超越GPT-4o,但应用开发创造力不足成为主要瓶颈 [19] - ChatGPT类产品只是AI应用的冰山一角,更多场景有待探索 [19] 创新方法论与人才战略 - 早期创新业务无需最贵人才,需寻找符合长期愿景的合适人选 [20][25] - 阿里云首笔收入来自初创企业,验证小公司对新技术的敏锐度 [24] - 硅谷式高薪挖人并非制胜关键,阿里云CTO周靖人系15年前自主培养 [25] 技术淘汰与迭代规律 - ChatGPT热潮后涌现的技术/产品中,大部分可能5-10年内消亡 [3][15] - 行业需接受快速试错,允许大部分探索性项目失败以筛选本质创新 [15] - 企业迭代速度呈波浪式前进,整体行业进步依赖多企业交替领跑 [16]
全网疯传GPT-5泄露!首次统一GPT和o系列,编程实测demo抢先曝光,下周发布?
量子位· 2025-07-31 12:23
GPT-5发布动态 - GPT-5即将发布,全网出现多平台"偶遇"现象,包括ChatGPT、MacOS应用模型列表、Cursor、微软Copilot及OpenAI API平台[1][2][3][5] - 微软Copilot上的GPT-5将向所有人开放且不受订阅限制,OpenAI CEO奥特曼曾表示GPT-5将免费向用户开放[12] - 微软正试行Copilot的"Smart模式",能智能判断何时调用GPT-5的深度推理与多模态能力,Azure也在为集成GPT-5做准备[28] 技术能力升级 - 实现GPT系列与o系列技术整合,完成多模态和推理能力大一统,无需手动切换模型[11][14] - 输入上下文窗口达100万tokens,输出达10万tokens,支持MCP协议与并行工具调用[19] - 动态处理短时/长时推理,集成Code Interpreter等工具,性能更快且减少幻觉[19] - 高级编程能力接近人类程序员水平,可自动编写高质量游戏原型并支持应用程序定制[16][17] 模型版本架构 - 主模型GPT-5(代号o3-alpha)具备最强综合能力[15] - GPT-5 mini(代号lobster)为专用编程模型,精度优于Claude 4,能处理复杂编码任务并优化遗留代码[22] - GPT-5 nano(代号starfish)已出现在模型竞技场测试中,目前仅能制作静态游戏界面[25][27] 行业反应与质疑 - 社区对GPT-5保持谨慎态度,认为可能存在发布后性能下降或安全限制导致能力缩水[33][34] - 马库斯提出7项悲观预测,包括持续存在幻觉问题、难以处理复杂推理任务、无法稳定遵循人类价值观等[35][37] - 部分观点认为泄漏事件可能是OpenAI的炒作行为,网友呼吁尽快发布以验证实际性能[39][40]
【大涨解读】人工智能大模型:AI大模型迎来密集催化,世界人工智能大会即将召开,GPT-5还刚刚确定发布时间
选股宝· 2025-07-25 11:07
行情 - 人工智能大模型板块局部走强,汉王科技、直真科技、因赛集团(20CM)涨停,云从科技涨超11%,鼎捷数智、恒锋信息、拓尔思、当虹科技、格灵深瞳、值得买等集体大涨 [1] 事件 - 2025世界人工智能大会暨人工智能全球治理高级别会议将于2025年7月26日在世博中心举办,国务院总理李强将出席开幕式并致辞 [2] - OpenAI准备在8月推出新版旗舰大模型GPT-5,并推出mini和nano版本,GPT-5将是一套集成了大量技术的系统,包含o3推理能力,旨在打造更强大的系统并最终实现通用人工智能(AGI) [3] 机构解读 - 世界人工智能大会(WAIC)已成为全球AI生态的重要推动力量,本次大会主题为"智能时代同球共济",强调全球AI合作和技术普惠,有望推动新的产业技术革新和AI应用产业落地 [4] - GPT-5或将是一个完全多模态的大模型,支持语音、图像、视频、代码等多种输入方式,多模态大模型将提升算力需求,驱动推理应用爆发并带动硬件更大规模建设 [4] - 国产模型如豆包Seed1.6、阿里通义千问、KimiK2等呈现百花齐放局面,中国大模型企业的能力并不落后,2025年有望成为世界认知中国人工智能潜力的第一年,未来有望走向全球 [4]
DeepSeek月均下载量暴跌72.2%!周鸿祎:梁文锋不屑于做APP,他把技术全都开源免费【附大模型行业市场分析】
前瞻网· 2025-07-25 09:34
DeepSeek下载量变化 - 2025年二季度月均下载量从一季度的8111.3万骤降至2258.9万,降幅达72.2% [2] - 用户流失主要因第三方平台分流,59.2%转向百度App,38.6%转向豆包App [2] - 阿里、字节、百度等大厂推出低价同类API进一步挤压市场空间 [2] DeepSeek开源策略与行业影响 - 采用低成本高性能开源模式,训练成本仅600万美元+2048块H800 GPU [3] - 开源推动第三方平台开发更优质服务,加速AI技术普及 [3] - 创始人梁文锋专注AGI研发而非流量变现,技术全开源免费 [4] 国内大模型竞争格局 - 截至2024年4月国内推出305个大模型,其中10亿参数以上达254家 [4] - 百度文心4.5性能超GPT4.5但API价格仅1%,文心X1价格约为DeepSeek-R1一半 [5] - 主流模型特点:文心系列侧重综合能力,通义千问采用混合推理,DeepSeek-R1数学推理强且成本为国际模型1/10 [6] 技术成本优势与行业应用 - DeepSeek-R1推理成本为OpenAI的1/30 [5] - AI大模型成为城市规划和工业革新核心驱动力,提升动态规划与决策效率 [7] - 轻量化、低成本化趋势加速行业大模型开发与规模化应用 [9]
最强人才接连被挖,创业大佬离开 OpenAI 后说了实话:7 周硬扛出 Codex,无统一路线、全靠小团队猛冲
AI前线· 2025-07-16 13:08
核心人才流动 - OpenAI研究员Jason Wei和Hyung Won Chung将加盟Meta超级智能实验室 两人在OpenAI的Slack账户已停用 [1] - Jason Wei曾参与OpenAI的o3模型开发 是强化学习领域的专家 此前在谷歌专注于思维链研究 [1] - 人才流动引发外界对OpenAI团队文化的好奇 前员工Calvin French-Owen分享内部观察 [2][3] 公司文化特征 - OpenAI采用自下而上的研究模式 没有统一路线图 研究方向由研究员兴趣驱动 [10][11] - 沟通高度依赖Slack 任职期间仅收到10封邮件 信息管理依赖个人组织能力 [10] - 决策迅速 能根据新信息快速转向 体量庞大仍保持敏捷性 [12] - 推崇任人唯贤 领导晋升取决于提出好问题和实践能力 而非会议说服力或政治手腕 [11] 研发与项目运作 - Codex项目仅用7周完成 由8名工程师 4名研究员等组成的小团队推动 [26][28] - 采用"迷你主管"模式 研究人员自主探索问题 结果导向决定资源投入 [12] - 存在多个并行原型项目 如Codex发布前内部有3-4个不同原型在推进 [11] - 使用单体monorepo代码库 主要语言为Python 服务运行在Azure Kubernetes上 [20][22] 业务与竞争格局 - 最大成本为GPU算力 Codex某项功能的GPU成本相当于Segment整个基础设施 [17] - 同时竞争数十个领域 包括API产品 深度研究 硬件 图像生成等 [18] - 面临Meta 谷歌 Anthropic三足鼎立的AGI竞争格局 [33] - 高度关注Twitter舆论 有专人跟进热门帖文 被戏称"靠网络舆论运转" [18] 产品与技术特点 - ChatGPT Connectors采用异步方案 用户可像对待同事一样与编程智能体交互 [28] - Codex擅长处理大型代码库 能同时启动多任务比较输出 发布53天生成63万条PR [30] - 模型训练经历从小规模实验验证到大规模运行的工程化过程 [24] - 安全团队规模庞大 优先处理实际风险如仇恨言论 生物武器制造等 [16] 组织扩张与挑战 - 员工数量从1000人快速扩张至3000人 任职一年的员工资历排名前30% [10] - 不同团队文化差异显著 有的全力冲刺 有的稳定推进 有的专注临门一脚 [10] - 工程工具跟不上团队扩张速度 主服务器CI频繁中断 测试运行需半小时 [22] - 保留技术理想主义 以实现AGI为目标 允许试错并快速修正 [4][15]
AGI离我们还有多远?斯坦福专家:未来五年AI将重塑白领工作
36氪· 2025-07-15 18:15
当前格局将如何塑造未来 - 生成式人工智能标志着人工智能为企业带来的变革性转变 并带来重大价值与变革的三大领域:用户体验及人机交互方式 应用层自动化 以及平台核心引擎[2] - SAP已在应用中嵌入约230项人工智能功能和代理 计划到2025年底增加到400项 以提高生产效率并降低成本[2] - 企业需将AI定位为增强工具而非生产力工具 定位方式显著影响使用频率 需从业务问题出发量化价值实现[2][3] 对AI未来的预测 - 技术通用人工智能(AGI)定义为AI在大多数认知任务中达到或超越人类通用性 未来五年将在白领工作中取得巨大进展[4] - AI发展六大变革支柱:超越当前能力的下一代AI 未来数据平台 机器人技术 量子计算 下一代企业用户体验 以及未来云架构[6] - 合成数据生成和提高数据质量将至关重要 因现实世界数据源如维基百科已被AI模型完全吸收[6] - 机器人技术迅速发展 边缘设备可安装强大AI 量子计算将实现流程优化和模拟的范式转变[6] - 2030年后新一代职场用户体验范式将发生变革 需要情感连接和自适应屏幕的沉浸式体验[7]