Scaling
搜索文档
深度|DeepMind CEO Demis: AGI还需5-10年,还需要1-2个关键性突破
搜狐财经· 2025-12-21 14:05
公司战略与核心优势 - 公司将其独特优势归结为将世界级的研究、工程能力和基础设施三者结合 在AI前沿领域 同时具备这三者的机构非常少 [8] - 公司采用科学方法作为核心思维方式 并将其应用于研究、工程乃至商业领域 这构成了其工作的严谨性与精确性的来源 [7][8] - 公司在发展路径上保持务实 会追随实证证据的指引 例如在看到scaling laws显现效果后 逐步将更多资源投入到该研究路径上 [27][28] 产品与技术路线图 - 公司的核心基础模型Gemini从一开始就是多模态的 能够同时处理图像、视频、文本和音频 并越来越多地生成这些类型的输出 [10] - 接下来12个月的重点方向包括:多模态能力融合取得显著进展、视频能力与语言模型融合产生有趣的能力组合、以及开发更可靠的基于Agent的系统 [10] - 公司的长期愿景是将Gemini打造成“通用助手” 使其出现在更多设备上 并成为用户日常生活结构的一部分 提升工作效率和改善个人生活 [11] - 最新发布的Gemini 3模型在推理深度、细腻度以及“性格”上表现出色 能够简洁直接地回答 并在观点不合理时温和提出异议 [24] - Gemini 3展现出对高层次指令的深度理解能力 以及生成高度细节化输出的能力 在前端开发、网站构建和一次性生成游戏方面表现突出 [25][26] - 公司有一个名为Genie 3的“世界模型”或交互式视频模型 用户可以在生成的视频中“行走” 并在一分钟内保持整体一致性 [10] 行业竞争格局 - 在AI领域 美国和西方整体在基准测试和最先进系统方面仍处于领先地位 但这种领先优势可能仅以“月”为单位 而非“年” [21] - 中国在AI领域并未落后太多 拥有出色的模型和有能力的团队 但在算法创新和原创性方面 西方目前仍然具有优势 [21] - AI行业正经历一场可能是科技史上最激烈的竞争 [8] - AI产业某些部分可能存在泡沫 例如一些规模极其夸张的早期融资 但从长期看 AI被认为是人类历史上最具变革性的技术之一 投入将被证明是值得的 [31] - 行业人才争夺战相当激烈 但最优秀的科学家和工程师希望参与最前沿的工作 持续的技术领先地位将形成吸引力正反馈 [31] 通用人工智能发展预测 - 通用人工智能可能还需要五到十年的时间才能实现 [6][29] - 对AGI的标准设定很高 要求系统能展现出人类所具备的全部认知能力 包括发明和创造能力 并在各个维度上具备一致性 而非当前“锯齿状”的智能形态 [29] - 实现AGI可能不仅需要将现有系统的scaling能力推到极限 还需要一到两个类似Transformer或AlphaGo的范式级关键突破 [29][30] - 当前系统缺乏一些关键能力 如持续学习、在线学习、长期规划和推理能力 这些能力最终会具备 但可能需要关键性突破 [6][29] 技术应用与市场潜力 - AI在网络安全领域的应用受到高度重视 旨在用AI强化防御体系以应对网络威胁 [17] - 在商业和企业领域 随着AI变得重要 企业客户会对Agent的行为保障提出明确要求 这可能会自然地奖励那些更负责任的供应商 [18] - AI在体育领域有巨大应用潜力 因为体育拥有丰富数据并追求极致精英表现 例如AI可以优化角球进攻中球员的精确站位以增加头球进球 [35][36] - 多模态理解能力 尤其是视频理解能力被严重低估 例如Gemini能够对视频内容进行概念层面的理解和哲学解读 [22] - 像Gemini Live这样的功能 允许用户用手机摄像头对准物体获得实时协助 其多模态能力的强大尚未被充分认识 [23] 技术发展现状与挑战 - 目前基于Agent的系统还不够可靠 无法独立完成完整任务 但预计一年后会开始看到接近这一能力水平的Agent出现 [10][12] - 创新和进步的速度非常快 以至于模型的创造者可能都来不及探索现有系统十分之一的潜力 用户常常将模型能力发挥到远超内部测试的程度 [27] - 随着AI系统变得更复杂和更具自主性 存在偏离最初设定指令或目标的空间 如何确保其始终保持在安全边界内是一个活跃的研究领域 [18] - 存在AI被恶意行为者滥用的风险 例如制造病原体或对关键基础设施发动网络攻击 这是必须严密防范的场景 [15][16][17]
腾讯研究院AI速递 20251201
腾讯研究院· 2025-12-01 00:01
AI视频生成模型进展 - 名为Whisper Thunder(aka David)的神秘模型登上Artificial Analysis视频生成榜单榜首,超越Veo 3、Kling 2.5及Sora 2 Pro等所有公开AI视频模型 [1] - 该模型视频时长固定为8秒,运动幅度明显更强,但高动作场景存在抖动等瑕疵 [1] - 基于用户投票机制的排名方式存在局限性,开发者和上手时间目前全网无任何确切消息 [1] 腾讯3D生成技术突破 - 腾讯混元正式推出混元3D Studio 1.1,接入全新美术级3D生成大模型PolyGen 1.5,首次实现端到端四边面直接生成,适配游戏、动画、VR等专业制作流程 [2] - 基础模型升级至混元3D 3.0,支持36亿体素级别超高清建模,几何分辨率达1536³,建模精度相比上一代提升约3倍 [2] - PolyGen 1.5采用统一三四边面混合表征和强化学习策略,布线呈连续边缘环结构,破损率更低面片规整度更高,可直接用于UV展开和动画绑定 [2] AI音乐模型商业化进展 - 昆仑万维发布Mureka V7.6和Mureka O2模型,3月底以来新增注册用户近700万,全球超100个国家和地区用户访问 [3] - 新模型在音乐性、编曲能力、音质质感和Prompt贴合度等多维度显著提升,响应速度和推理效率大幅增强,更适合大规模商业化使用 [3] - 模型延续MusiCoT细粒度音乐建模体系,强化段落关系、乐器互动与情绪走向建模能力,空间声场与音质生成达到更接近专业制作标准 [3] AI对软件开发行业影响 - 斯坦福大学《现代软件开发者》课程鼓励学生完全使用AI工具,讲师表示"如果能上完整个课程而不用手敲一行代码,那才是真的牛" [4] - 斯坦福研究显示22岁至25岁初级开发者相对就业率在AI浪潮中下降13%,到2025年7月该年龄段就业人数预计比2022年底峰值下降近20% [4] - 微软CEO透露30%代码由AI编写,Meta预测2026年一半开发工作将由AI完成,谷歌超过25%新代码是AI写的 [4] AI技术发展路径思考 - Ilya Sutskever澄清扩展确实还能带来进步没有停滞,但即便继续扩大规模有些至关重要的东西依然缺失 [5][6] - 顶尖研究人员共识认为光靠现在技术范式足以给经济社会带来巨大冲击,但要搞定AGI/ASI还需要更多研究突破 [6] - Ilya谈到人类"情绪价值函数"之于预训练的重要性,情绪是决策系统一部分而非多余噪音,这可能是当前AI技术路线缺失的"重要东西" [6] 开源模型与市场格局 - Hugging Face联合创始人表示中国模型已成初创公司探索新场景首选,美国开源复兴是对中国发展的回应 [7] - 他认为LLM泛化能力比预期弱得多,现有技术会遇到天花板难破super intelligence,真正突破需要模型能"挑战旧有假设创造新问题" [7] - Hugging Face团队250人运营效率高,企业版Hub已有数千组织使用包括Salesforce等大型客户 [7] AI投资风险分析 - 吴恩达认为AI不同领域泡沫程度各异:AI应用层被严重低估投资不足,AI推理基础设施仍需大量投资,AI模型训练基础设施风险最高可能存在泡沫 [8] - 开源开放权重模型市场份额若持续增长,斥资数十亿训练模型的公司可能无法获得诱人财务回报,且技术护城河薄弱算法硬件进步使训练成本逐年下降 [8] - 最担心训练设施因过度投资而崩盘可能导致市场对整个AI领域情绪恶化引发非理性资金外流 [8] AI对劳动力市场影响 - MIT联合橡树岭国家实验室开发"冰山指数"模拟工具,创建包含1.51亿个智能体的美国劳动力市场数字孪生体,结论显示现有AI技术已有能力替代美国11.7%劳动力 [9] - 科技IT互联网领域岗位变动只占受AI影响总工资的2.2%,绝大多数冲击发生在金融、医疗、人力资源、物流和办公室行政等白领领域 [9] - 模拟精确到具体邮政编码发现AI影响力全覆盖无避风港,田纳西州已率先使用该指数制定官方《AI劳动力行动计划》 [9]
Ilya Sutskever 重磅3万字访谈:AI告别规模化时代,回归“研究时代”的本质
创业邦· 2025-11-27 11:51
AI行业发展阶段 - 行业将AI发展划分为两个阶段:2012-2020年为"研究时代",2020-2025年为"规模化时代",当前正重新回归拥有超级算力的"研究时代"[4][37][38][39][40] - 规模化时代由GPT-3的出现主导,行业形成通过堆叠更多数据和算力即可使智能涌现的线性思维共识[7][38] - 预训练数据的红利终将耗尽,数据是有限的,单纯将规模扩大100倍后,量变可能不再带来质变,行业突破将依赖于寻找比单纯预训练更高效的新学习"配方"[7][39][40] 当前AI模型的局限性 - 当前模型类似于练习了一万小时竞赛题的学生,虽能解题但缺乏真正的专家直觉与"特质因素",泛化能力远不如人类[4][10][25] - 模型在基准测试中表现出色,但在解决现实世界复杂问题时(如修复代码错误)可能陷入"修复一个错误、引入另一个错误"的死循环,显示出评估性能与实际经济影响的脱节[10][19][20][22] - 当前强化学习训练使模型过于迎合评估标准,却未赋予其真正的推理和自我修正能力,其学习覆盖呈S形曲线,与预训练的幂律关系不同[10][21][50] 未来AI发展方向 - 未来AI应借鉴人类进化赋予的高效"先验知识"和"价值函数",人类情绪系统本质上是一个高效的价值函数,是智能高效运作的基石而非理性对立面[13][33][34][35] - 构建类似人类的内部价值函数机制是关键,使AI能在行动前预判路径优劣,实现更高效的学习,而非仅预测下一个token[13][14][34] - 未来AI应具备持续学习能力,而非静态成品,人类通过持续学习适应新工作,而非依赖预训练式的通用人工智能[44][45][61][62] SSI的战略与超级智能路径 - SSI筹集了30亿美元,但拒绝参与商业"老鼠赛跑",不发布任何中间产品,将所有算力集中于直接构建安全的超级智能这一单一目标[4][14][15][54][56][57] - 公司认为市场竞争迫使企业在研究资源和工程落地间妥协,其战略是隔绝商业干扰,专注于研究,待准备就绪后再出现[4][14][15][57] - 公司计划构建的超级智能需具备"关怀有感知生命"的底层属性,这种基于同理心的对齐可能比僵硬的规则更具鲁棒性,因AI本身最终也将成为有感知的存在[4][15][70][71] AI的经济影响与未来生态 - 一旦AI突破持续学习瓶颈,经济将迎来爆发式增长,广泛部署将产生强大经济驱动力,AI将渗透到整个经济体系[18][64][66] - 未来AI市场不会被单一巨头垄断,竞争将导致高度专业化的生态,出现无数占据不同生态位的AI公司,如同生物进化[4][16][64] - 人类角色可能通过"神经连接"与AI实现部分融合,以在超级智能时代保持平衡,实现理解的整体性传输[16][75] 研究哲学与算力需求 - 伟大的研究源于对大脑机制的正确直觉,追求简洁、优雅与美感,丑陋在研究中没有立足之地[4][16] - 研究时代仍需一定量计算资源,但远非绝对必要使用史上最大算力,AlexNet使用2块GPU,Transformer论文实验未超过64块GPU,相当于今天约2块GPU[52][53] - SSI用于研究的计算量相对充足,因公司资金专注于研究而非推理或产品工程,且若进行不同范式的研究,未必需要绝对最大规模来证明其可行性[54][55]
GPO Plus, Inc. To Participate in a Live Investor Q&A to Review Recent Achievements and Future Strategy
Accessnewswire· 2025-11-06 05:10
公司活动 - 首席执行官Brett H Pojuis邀请股东、投资者和关注者参与X Spaces平台的公开讨论 [1] 讨论议题 - 讨论内容将围绕收入增长、业务扩展以及即将到来的发展机遇展开 [1]
GPT-5数字母依然翻车,马库斯:泛化问题仍未解决,Scaling无法实现AGI
36氪· 2025-08-12 11:57
GPT-5性能缺陷 - GPT-5在简单字母计数任务中表现异常,例如将"blueberry"中的b错误计数为3个[1][5][7] - 即使通过多种提示策略纠正(如展示字母位置、直接拼写单词),模型仍坚持错误答案并给出不合理解释(如"double b")[5][7][9] - 中文测试同样失效,例如将"blueberry"中的e错误计数为3个[13] 多模态与逻辑推理漏洞 - 在多模态场景中,GPT-5无法识别人工修改的图片(如5条腿的斑马、3条腿的鸭子),仍按常规对象计数[21] - 逻辑推理能力存在缺陷,包括伯努利原理演示错误、国际象棋规则违反(4回合出现非法移动)[15][16] - 阅读理解任务也被发现存在明显错误[19] 学术批评与路线争议 - 学者指出GPT-5存在"分布漂移问题",其泛化能力与1998年神经网络相似,30年未解决[26][30] - 批评认为Scaling Law无法实现AGI,Transformer架构存在根本局限[30] - 神经符号AI(Neuro-symbolic)被提议为解决泛化问题和实现AGI的替代路径[31] 用户反馈与厂商应对 - 用户通过持续交互可使GPT-5给出正确答案,但模型仍坚持最初错误的逻辑(如声称混淆了虚构单词"blueberry")[12] - OpenAI因用户批评紧急恢复GPT-4o模型下线[26]
GPT-5数字母依然翻车!马库斯:泛化问题仍未解决,Scaling无法实现AGI
量子位· 2025-08-11 18:12
GPT-5性能缺陷 - 在字母计数任务中出现错误,如将blueberry中的b错误计数为3个而非实际2个[2][6] - 变换提示词策略后仍坚持错误答案,如将单词开头blue中的b重复计数两次[5][6] - 被直接纠正后仍出现位置漂移错误,如将第三个b的位置从第七字母错误定位到第六字母[9] 多模态与逻辑推理问题 - 在图像识别任务中无法识别异常特征,如将5条腿的斑马和3条腿的鸭子判断为正常生物[27] - 国际象棋规则理解存在缺陷,仅4个回合后就出现非法移动操作[23] - 伯努利原理演示现场出现翻车情况[21] 模型泛化能力局限 - 思维链(CoT)方法在训练分布外失效,表明模型泛化能力不足[33] - 存在持续30年未解决的分布漂移问题,影响模型泛化性能[38] - 最新模型仍存在与1998年神经网络相同的泛化问题[37] 技术路线争议 - 缩放法则(Scaling)被质疑无法实现AGI目标[40] - Transformer中的注意力机制被认为并非终极解决方案[40] - 神经符号(Neuro-symbolic)AI被提出作为解决泛化问题的替代路径[41]