Workflow
通用人工智能(AGI)
icon
搜索文档
阿里通义千问再放大招 多模态大模型迭代加速改写AGI时间表
21世纪经济报道· 2025-08-19 20:57
多模态大模型发展现状 - 阿里通义团队推出Qwen-Image-Edit,基于20B参数的Qwen-Image,专注于语义和外观编辑,支持双语文本修改、风格迁移及物体旋转 [1] - 阿里半年内连续推出Qwen2 5-VL、Qwen2 5-Omni、Qwen-Image等多模态模型 [1] - 谷歌研究报告显示,预计至2025年全球多模态AI市场规模将飙升至24亿美元,2037年底预计将达到989亿美元 [1] - 商汤科技联合创始人林达华表示未来多模态模型甚至能在纯语言任务上超越单一语言模型 [1] 国内厂商布局 - 2023年12月谷歌原生多模态Gemini 1 0模型上线,将AI竞赛由文本领域带入多模态领域 [2] - 阿里推出Qwen2 5系列强化多模态能力,Qwen2 5-VL在13项权威评测中视觉理解能力全面超越GPT-4o与Claude3 5 [3] - 阿里发布首个端到端全模态大模型Qwen2 5-Omni,支持文本、图像、音频、视频的实时交互 [3] - 阶跃星辰发布Step 3基础大模型,原生支持多模态推理,其多模态模型占比达7成 [4] - 商汤发布日日新V6 5大模型,多模态推理与交互性能大幅提升 [4] - 智谱推出开源视觉推理模型GLM-4 5V,涵盖图像、视频、文档理解等任务 [5] - 昆仑万维一周内连续发布六款多模态模型,覆盖数字人生成、世界模拟等场景 [5] 技术挑战与发展 - 多模态领域仍处于发展初期,诸多基础性问题尚未解决 [6] - 视觉数据表征空间达到百万维度的连续空间,与文本存在本质差异 [6] - 视觉数据本身不包含语义信息,需要建立跨模态映射关系 [7] - 当前多模态模型对于图形和空间结构的推理能力薄弱 [7] - 主流多模态模型后续思考推理过程仍主要依赖纯语言推理 [7] 行业趋势 - 2025年被业内人士普遍视为"AI应用商业化元年",多模态技术是核心驱动力 [6] - 多模态能力将成为AI系统的标配,如何转化为实际生产力是产业界下一步重点 [8]
阿里通义千问再放大招,多模态大模型迭代加速改写AGI时间表
21世纪经济报道· 2025-08-19 20:21
多模态大模型发展现状 - 阿里通义团队推出Qwen-Image-Edit,基于20B参数的Qwen-Image,支持双语文本修改、风格迁移及物体旋转,拓展生成式AI在专业内容创作中的应用 [1] - 阿里半年内连续推出Qwen2.5-VL、Qwen2.5-Omni、Qwen-Image等多模态模型,Qwen2.5-VL 72B版本在13项权威评测中视觉理解能力全面超越GPT-4o与Claude3.5 [3] - 阿里Qwen-Image-Edit登上AI开源社区Hugging Face模型榜单首位,成为全球热度最高的开源模型 [3] 行业竞争格局 - 谷歌原生多模态Gemini 1.0模型上线,将AI竞赛由文本领域带入多模态领域 [2] - 阶跃星辰发布Step 3基础大模型,原生支持多模态推理,其基座模型矩阵中多模态模型占比达7成 [4] - 商汤发布日日新V6.5大模型,从6.0开始全部为多模态模型 [5] - 智谱推出开源视觉推理模型GLM-4.5V,昆仑万维一周内发布六款多模态模型 [5] 市场规模与趋势 - 预计2025年全球多模态AI市场规模将达24亿美元,2037年底预计达到989亿美元 [1] - 2025年被业内人士视为"AI应用商业化元年",多模态技术是核心驱动力 [7] - 中国企业在视觉推理、视频生成等多个细分领域已排在权威榜单前列 [7] 技术挑战 - 多模态领域仍处于发展初期,诸多基础性问题尚未解决 [8] - 视觉数据表征空间达到百万维度的连续空间,与文本的数万维度存在本质差异 [8] - 当前多模态模型对于图形和空间结构的推理能力薄弱,无法解决简单空间问题 [10] - 多模态模型思维方式主要依赖逻辑推理,缺乏空间感知能力 [10] 发展方向 - 多模态能力将成为AI系统标配,如何转化为实际生产力和社会价值是下一步重点 [10] - 未来多模态模型可能在纯语言任务上超越单一语言模型 [1] - 2025年下半年或将迎来多模态模型的全面普及 [1]
蚂蚁的边界革命:技术驱动下的医疗健康新布局
经济观察报· 2025-08-19 16:49
蚂蚁集团业务拓展 - 公司从支付宝支付业务拓展至芝麻信用体系,再进入数字医疗健康领域,边界不断扩展[2] - 2024年推出医疗健康服务平台及AI健康管家AQ,战略升级为问题解决者[2][4] - 医疗健康布局始于2014年,已覆盖全国5000多家公立医院,8亿多用户激活医保码,1.2亿用户使用亲情账号[4] 医疗健康战略与技术 - AI健康管家AQ基于万亿级医学数据训练,医疗大模型在MedBench评测中接近满分,皮肤识别准确率超96%,报告解读覆盖率99%[3][5] - AQ具备"拍图打假"和"AI鉴真"功能,打击虚假医疗广告,破解健康谣言[5] - 技术提升供给侧效率,如好大夫平台30万医生AI分身可服务更多患者,缩小城乡医疗差距[6] 数据与合作资源 - 公司积累11年真实医疗服务数据,与好大夫等平台合作,汇聚超30万名注册医生[4][5] - AQ累计服务用户超1亿,日咨询量超100万人次[5] 社会问题与商业逻辑 - 瞄准医疗资源分配不均、虚假广告等痛点,超四成老年人曾因保健品被骗[4][8] - 发展逻辑为"问题导向",技术投入聚焦社会痛点而非单纯商业利益[8] 技术特点与创新 - 医疗大模型从教材、论文等高质量数据学习,避免虚假信息污染[5] - AGI技术从"获取信息"转向"像医生一样解决问题",重构医疗技术底层逻辑[3] 挑战与长期策略 - 技术幻觉问题尚未完全解决,仅20%用户遇医疗问题时会咨询AI[7] - 采取长期主义策略,计划十年以上投入,目标包括缩小城乡差距、连接家庭健康硬件等[7] - 开源部分模型能力,推动行业合作[7] 行业思考 - 科技企业边界由社会问题定义,医疗健康领域需平衡商业活力与专业性、公益性[8][9] - 移动支付和信用体系已成为基础设施,医疗健康拓展体现技术的社会价值导向[8][9]
诺奖得主谈「AGI试金石」:AI自创游戏并相互教学
36氪· 2025-08-19 08:00
Genie 3 世界模型 - Genie 3 是 DeepMind 多个研究分支融合的成果,核心目标是构建“世界模型”,让 AI 理解物理世界的规律,包括物理结构、材料特性、液体流动、生物行为等 [3] - 通过 3D 游戏引擎等模拟环境生成大量数据,让 AI 在虚拟场景中学习现实规律,能生成具有一致性的世界,用户返回虚拟场景时状态与离开时保持一致 [4] - 已用于内部训练,游戏 agent SIMA 可直接操控电脑游戏,Genie 3 实时生成对应的环境变化,形成“AI 生成世界、另一个 AI 探索”的闭环,为机器人技术和 AGI 系统创建无限训练数据 [4] - 在互动娱乐领域有潜在价值,可能催生介于电影与游戏之间的新型娱乐形式,与视频模型共同为探索现实本质提供新维度 [5] Game Arena 评估平台 - Google DeepMind 与 Kaggle 合作推出 Game Arena,作为评估 AGI 进展的新测试平台,让模型玩各种游戏并测试能力 [6] - 游戏是非常纯粹的测试场所,通过 Elos 等级分客观衡量性能,没有主观性,不需要人类进行 A/B 测试 [9] - 随着 AI 系统能力提升,游戏难度可自动调整,系统在比赛中相互较量,能力增强则测试自动升级 [9] - 未来支持 AI 自创游戏并相互教学,避免训练数据过度拟合,更真实检验通用学习能力 [10] - 将与其他新型评估工具共同作用,确保 AI 系统在认知能力的各个维度得到全面检验 [11] AI 系统现状与挑战 - 当前 AI 系统存在能力不均衡现象,能在 IMO 中获得金牌,却可能在高中数学、简单逻辑问题或特定游戏中犯低级错误 [7] - 现有评估基准存在局限性,很多 benchmark 开始变得饱和,例如数学领域 AIME 的正确率已达 99.2%,进入回报非常有限的阶段 [7] - 需要更难、更广泛的 benchmark,涵盖物理世界理解、直觉物理、物理智能及安全特性等维度 [8] Thinking 模型与工具使用 - Thinking 模型演进是重要方向,以 Deep Think 为代表的系统延续 AlphaGo 等早期游戏 AI 的 agent 系统思路,强调思考、规划与推理能力 [12] - 可进行深度思考和并行规划,在数学、编程、科学问题等领域通过反复推演优化结果,而非直接输出初始结论 [12] - 工具使用成为 AI 能力扩展的新维度,在推理过程中可调用搜索功能、数学程序、编码工具等,更新规划方案 [12] AI 系统架构转变 - AI 正从权重模型向完整系统转变,早期模型输入输出模式较简单,如今系统能结合工具使用、规划与思考能力,实现更复杂功能 [13] - 产品设计需具备前瞻性,预判一年后技术水平,允许底层引擎定期更新,周期可能短至三到六个月,以适应技术快速迭代 [13]
腾讯研究院AI速递 20250819
腾讯研究院· 2025-08-19 00:01
Meta首款带显示AI眼镜 - Meta将于9月发布首款带显示屏的智能眼镜,价格定为800美元起,低于此前预期的1000美元以上 [1] - 该眼镜代号Hypernova,配备小型单目抬头显示(HUD)和sEMG神经腕带,可通过手指手势控制 [1] - 眼镜可显示时间、天气、通知,框架和预览照片,提供转弯导航和实时字幕翻译功能,重量约70克 [1] AI游戏伙伴 - "逗逗AI"是一款专注游戏陪玩的AI产品,拥有庞大的游戏知识库,能实时读取游戏画面并提供攻略和情感陪伴 [2] - 平台提供丰富的角色选择,包括官方原创角色和知名UP主形象,支持游戏间的长期记忆和良好的上下文理解能力 [2] - 其月卡订阅模式提供无限通话时长和长期记忆功能,目前支持《黑神话:悟空》、《原神》、《星露谷物语》等多款游戏 [2] AI游戏《Whisper from the Stars》 - 蔡浩宇的AI游戏《Whisper from the Stars》完整版正式上线,售价27元,玩家可通过语音或文字与AI角色Stella进行全英文交流 [3] - 游戏通过对话推进剧情,主角Stella为一名天体物理学生,在星际调研中遇险,玩家需要与其对话帮助她解决困境 [3] - 游戏AI响应能力佳,记忆持久,但随着游戏深入,聊天负担增加,节奏偏慢,缺乏明确目标导向 [3] 西班牙AI独角兽微型AI模型 - 西班牙公司Multiverse Computing发布两款极小体积的高性能AI模型:"超级苍蝇"(9400万参数)和"鸡脑"(32亿参数),采用量子压缩技术 [4] - 这些微型模型可在智能手机、手表和物联网设备上本地运行,实现离线功能、提升隐私保护、降低延迟和运营成本 [4] - 公司由物理学家罗曼·奥鲁斯创立,基于量子计算技术开发了名为CompactifAI的模型压缩技术,已获1.89亿欧元融资 [4] 百度文库通用智能体GenFlow 2.0 - 百度文库与百度网盘发布全球首个全端通用智能体GenFlow 2.0,支持100+专家智能体同时工作,3分钟并行完成5项以上复杂任务 [5] - 系统自主识别简单对话与复杂任务,提供分钟级并行工作和交付,生成速度超主流同类产品10倍 [5] - GenFlow 2.0兼容MCP协议,可连接百度文库14亿专业文档、百度学术6.8亿文献库,还能在用户授权后调用网盘文件 [6] 世界人形机器人运动会 - 首届世界人形机器人运动会在北京闭幕,来自16个国家的280支队伍、500余台人形机器人参赛,比赛包括田径、足球、武术和场景挑战赛 [7] - 宇树科技H1机器人获1500米、400米和4×100米接力三项冠军,北京天工队的"具身天工Ultra"机器人以21.5秒成绩获100米冠军 [7] - 赛事创新设置场景赛单元,测试机器人在工业、医药、酒店和仓储场景的实际应用能力 [7] 鸿蒙操作系统 - 华为常务董事余承东宣布单框架鸿蒙5.0设备突破1000万,称已过"生死线",每年研发投入超万人,总投入数百亿,开发1.3亿行代码 [8] - 回应"安卓套壳"质疑,表示鸿蒙5.0以前为双框架支持安卓应用,5.0及以后所有应用都是重新开发 [8] - 余承东期望鸿蒙与中国应用一起出海,预计未来操作系统"三分天下,其一必有鸿蒙" [8] AI控制与伦理 - "AI教父"Hinton在Ai4 2025大会上警告AGI可能在几年内到来,认为人类试图控制AI终将徒劳 [9] - Hinton提出AI将很快演化出自我存续和获取更多控制权两个子目标,并建议在AI中建立"母性本能" [9] - 李飞飞则持相反立场,呼吁打造"以人为本的人工智能",维护人类尊严与自主权 [9] AI时代设计师指南 - 创造而非画图:杰出设计师不仅交付效果图,还亲手打磨可运行产品,将蓝图变为现实 [10] - 敏捷迭代学习、构建而非堆砌、洞悉技术脉络是适应AI时代的必备能力 [10] - 人性是永恒优势:设计关乎共情和对微妙情境的洞察,顶尖设计师懂得将人性温度注入冰冷算法 [10] 小模型Agent研究 - 英伟达最新研究表明小模型在Agent任务中优于大模型,以更低资源消耗、更经济灵活的方式完成任务 [12] - 小模型通过针对GPU资源优化和任务定制部署两大方面实现"四两拨千斤",降低10-30倍推理成本 [12] - 小模型可快速适配新需求,在边缘计算中部署更便捷 [12]
天工称冠机器人百米赛;与辉同行否认董宇辉年入20亿
21世纪经济报道· 2025-08-18 10:34
人形机器人技术突破 - 北京人形机器人创新中心研发的"具身天工Ultra"机器人以21.50秒成绩获世界人形机器人运动会100米短跑冠军 采用全自主导航系统无需人工遥控 [2] - 宇树科技因舆论压力参与比赛 作为硬件厂商原避免与客户同台竞争 筹备时间约一个月 [5] 人工智能技术进展 - 谷歌DeepMind发布Genie 3世界模型 凭文本实时生成互动虚拟世界 保留一分钟空间记忆 被视为通向AGI的关键突破 [4] - OpenAI高管承认GPT-5仍存在幻觉问题 建议用户核对答案 强调可靠性与完全可靠性存在不连续性 [5] - 清华大学团队实现量子计算架构突破 首次支持任意两比特量子门直接编程的指令集架构AshN 成果发表于《自然·物理》 [11] 半导体行业格局变动 - SK海力士2025年上半年以36.3%市占率超越三星成为全球最大DRAM制造商 终结三星33年霸主地位 三星市占率降至32.7% [10] - SK海力士HBM业务贡献DRAM营业利润54% 自2024年3月起保持英伟达HBM3E主要供应商地位 美国子公司销售额同比增长103% [10] 操作系统生态建设 - 华为鸿蒙操作系统用户突破千万 目标推动全球终端运行鸿蒙 年底生态力争与安卓iOS看齐 鸿蒙5终端数量超1000万 [7] - 鸿蒙采用"一次开发 多端部署"理念提升开发效率 框架将推动中国应用出海 [7] 新能源基础设施 - 蔚来G318川藏换电路线全线贯通 全长2950公里部署15座换电站 实现全程换电至珠峰 [8] - 我国首个搭载气象雷达的海上升压站完成安装 监测半径230公里 为三峡江苏大丰800兆瓦海上风电项目提供气象监测与灾害预警 [9] 智能硬件产品发布 - 智元机器人推出OmniHand 2025灵巧手系列 包含灵动款与专业款 灵动款指导价1.48万元 首发限时降至9800元 [12] - 西北首条城市无人机医药配送航线在西安启用 航线长度10.5公里 配送时间11分钟 效率为地面运输3倍 未来将拓展至疫苗与血液运输场景 [13][14] 行业热点事件 - 罗永浩称董宇辉年收入达20-30亿元 与辉同行官方否认该信息 董宇辉曾以28.541亿元登顶网络主播收入排行榜后辟谣 [3] - Meta为扎克伯格支付2700万美元(约1.9亿元)安保费 超苹果等五家科技巨头CEO安保支出总和的26% [5] - 机场拦截充电宝通过二手平台回流市场 每吨回收价约9000元(单个成本2-3元) 转卖利润达8000-12000元/吨 某回收企业月处理量超20吨 [6]
「我怕活不到毕业」,AI引爆美国退学潮,18岁PPT式创业震惊YC之父
36氪· 2025-08-18 08:40
美国顶尖大学辍学潮 - 哈佛和MIT等顶尖学府出现学生因AGI焦虑主动辍学的现象,2025年趋势加剧,学生担忧AGI实现后将全面超越人类并带来灾难性后果 [1][2] - 仅2024年就有数十名哈佛和MIT学生退学,投身AI安全领域初创公司或研究实验室,推动AI与人类价值观对齐 [3][6] - 辍学生案例:麻省理工的Alice Blair因认为当前AGI发展路径可能导致人类灭绝而休学,加入AI安全中心 [6] AI发展的时间线与风险 - OpenAI CEO奥特曼预测AGI将在2029年前出现,DeepMind CEO Hassabis认为5-10年是合理时间线 [13] - 美国国务院2024年报告指出,不受控的AI发展存在「灭绝级」风险 [9][10] - 「深度学习教父」Hinton警告AI发展速度超预期,可能威胁人类生存 [8] 就业市场与AI替代效应 - 哈佛调查显示超半数学生担忧AGI影响就业前景,认为大学教育无法跟上AI技术迭代速度 [16] - Anthropic CEO Amodei预测AI将替代50%入门级白领岗位,未来失业率或飙升至20% [17] - JPMorgan经济学家指出,经济衰退期企业将加速采用AI工具,非重复性脑力职业首当其冲 [22] 行业争议与反对声音 - Meta首席AI科学家Yann LeCun认为当前大模型能力不及猫,AGI安全派代表Gary Marcus打赌2025年前不会出现超人类AGI [23] - 哈佛与MIT联合研究指出当前AI模型缺乏真正科学发现能力,质疑恐慌被夸大 [25] - Y Combinator联合创始人Paul Graham公开反对辍学创业,强调大学经历不可替代 [28][30] 高校应对措施 - 哈佛紧急上线AI伦理课程,MIT撤回鼓吹AI生产力的论文以缓解学生焦虑 [31] - 学生普遍认为世界变化过快,传统教育体系已无法应对AI时代的紧迫性 [32]
VLA/VLA+触觉/VLA+RL/具身世界模型等方向教程来啦!
具身智能之心· 2025-08-18 08:07
具身智能概述 - 具身智能强调智能体与物理环境的交互与适应 聚焦于感知环境 理解任务 执行动作并反馈学习的能力 [1] - 具身智能的核心模块分为大脑(语义理解与任务规划)和小脑(高精度运动执行) 类比人类神经系统结构 [1] 产业动态 - 近2年星海图 银河通用 逐际动力等明星团队从实验室走向商业化 推动本体与大小脑技术进步 [3] - 国内华为2024年启动"全球具身智能产业创新中心" 联合乐聚机器人 大族机器人攻关关键技术 [5] - 京东2025年起连续投资智元机器人 千寻智能 逐际动力 强化物流与家庭服务场景能力 [5] - 国际方面Tesla/Figure AI聚焦工业物流机器人 Wayve/Apptronik获资本支持发展自动驾驶与仓储机器人 [5] 技术演进路径 - **第一阶段**:抓取位姿检测(Grasp Pose Detection) 通过点云/图像预测末端执行器姿态 但缺乏任务上下文建模 [6] - **第二阶段**:行为克隆(Behavior Cloning) 通过专家数据学习端到端映射 存在泛化能力弱 误差累积问题 [6] - **第三阶段**:2023年Diffusion Policy引入序列建模 2024年VLA模型实现多模态协同 支持零样本泛化 [7] - **第四阶段**:2025年探索VLA与强化学习 世界模型 触觉感知融合 解决反馈 预测与触觉局限 [8] 应用与产品 - 技术演进推动人形机器人 机械臂 四足机器人在工业 家居 餐饮 医疗等场景落地 [9] - 行业岗位呈现爆发式增长 吸引大量从业者转入具身智能领域 [9] 技术体系与课程 - 课程系统梳理大脑+小脑技术路线 涵盖灵巧手 移动操作 人形机器人方法 [15] - 包含主流仿真框架配置 DP/VLA/VLA+RL/VLA+触觉等方法详解 以及世界模型下一代范式 [15] - 实践环节覆盖Sim2Real演进 IsaacGym/Mujoco仿真环境 Diffusion Policy代码实战 VLA模型训练等 [21] - 目标群体包括具身算法从业人员 研究方向学生 以及传统CV/自动驾驶转行者 [24][29]
硅谷画饼王「塌房」:奥特曼撒谎微表情被扒光,网友集体喊下台
36氪· 2025-08-18 07:50
公司领导层与公众沟通策略 - 公司CEO关于AGI的公开表述存在反复与模糊性 从宣称“AGI即将到来”、“GPT-5是通往AGI的重要一步”到认为“AGI这个词没什么用” [1] 近期更明确表示“AGI不是一个非常有用的术语” [9] - 公司CEO在宣传产品时被指存在夸大承诺的倾向 并被观察到在做出此类表述时有特定的肢体语言 [3] - 公司CEO在商业模式上的公开立场出现转变 从个人“讨厌广告”并视其为“最后的手段” 转变为探讨通过用户点击内容获得交易收入的可能性 [12][14] 公司营销与市场预期管理 - 公司在产品发布前采用神秘化营销策略预热市场 例如发布令人费解的推文与图片 [7] - 这种营销策略在吸引注意力方面被证明有效 ChatGPT周活跃用户在8月初达7亿 同比增长超四倍 付费商业用户从6月的300万增至500万 日均消息量突破30亿条 [11] - 但过度营销拉高市场预期后 若产品未达预期则易引发反噬 GPT-5发布期间 其在Polymarket关于“8月底谁家AI最强”的投票支持率一小时内从75%跌至14% [11] 公司内部治理与领导风格 - 公司CEO曾被董事会指控在沟通上不坦诚 具体包括未告知其拥有的创业基金、提供关于公司安全流程的不准确信息 以及在董事会成员间撒谎和操控局面 [17] - 前高管指控其管理风格为“心理虐待” 并存在操纵行为 例如将同一批资源同时承诺给不同高管以引发内斗 [17][19] - 公司CEO被指善于利用叙事推动事情向对其有利的方向发展 在与马斯克的合作与决裂过程中 以及早期在YC的经历中均有体现 [19] 行业竞争与创新环境 - 公司在舆论上面临挑战 其产品的领先优势正被快速蚕食 同时面临核心人才外流 [25] - 竞争对手如马斯克的xAI、Anthropic、Google等正虎视眈眈 [25] - 行业观点认为 一家独大对生态不健康 真正的创新往往来自竞争 Anthropic、DeepSeek、Google等挑战者带来了更多元的技术路线和产品形态 [26] 公司历史与战略演变 - 公司最初以非营利研究机构身份成立 强调不受盈利驱动 使命是确保AGI造福全人类 [9] - 公司早期曾有意利用外界对其“开源友好AI”的误解来获得支持 当被内部追问目标时 领导层回应含糊 [9] - 公司CEO被指在公众面前塑造无私形象 但被揭露通过持有YC股票间接持有公司股份 [21]
未来改变世界的不再是人?OpenAI 首席科学家直言:AI才是关键力量
36氪· 2025-08-18 07:47
8月16日消息,在最新一期OpenAI发布的播客节目中,主持人(OpenAI前工程师)安德鲁・梅恩和其公 司的黄金搭档——首席科学家雅库布・帕乔基(Jakub Pachocki)和研究员西蒙・西多尔(Szymon Sidor)作为嘉宾参与。 这对搭档回顾了从波兰高中同学到在OpenAI共事的渊源,还深入探讨了人工智能发展的关键议题,包 括通用人工智能(AGI)的定义与衡量标准、技术突破的标志性成果、基准测试面临的挑战,以及AI对 教育、科研和社会的实际影响等。核心观点有: ●AGI的定义与衡量演进:AGI已从抽象概念细化为多维能力集合。比如IMO金牌等里程碑虽有意义, 但点状突破已不足,未来应关注其在自动化科研和现实应用中的影响。 ●AI技术的突破轨迹:从早期情感分析的局限,到GPT系列模型的迭代,模型已能参与IMO、ICPC、日 本AtCoder等竞赛,展现出强大的推理与创造性思维能力。 ●基准测试的挑战与 "饱和":许多基准测试已出现"饱和",模型接近或超过人类水平,但难以全面反映 智能。衡量标准需转向实际效用与新见解的发现能力。 以下为此次播客节目的精华版内容: 安德鲁・梅恩:大家好,我是安德鲁・梅恩, ...