Workflow
Gemini 1.5
icon
搜索文档
前 OpenAI 研究员 Kevin Lu:别折腾 RL 了,互联网才是让大模型进步的关键
Founder Park· 2025-07-11 20:07
核心观点 - 互联网是推动人工智能进步的核心技术,而非Transformer等模型架构,互联网提供了海量、多样化的数据,是next-token预测的完美补充 [1][5][55] - 自GPT-4以来,基础模型能力未显著提升,优化模型结构或手工制作数据集难以带来质的飞跃,研究者应转向互联网数据研究而非RL [1][13][16] - 互联网具备四大关键特性:数据多样性、自然学习路径、产品市场契合度、经济可行性,这些特性使其成为AI训练的终极数据源 [54][60] Transformers的局限性 - Transformer架构并非AI进步的关键,自GPT-4后更好的架构(如SSMs、Mamba)未带来显著性能提升,因当前范式已转向数据受限时代 [11][13][14] - 若无互联网,仅依赖书籍或教科书训练模型会导致知识面狭窄,如phi模型虽在小规模任务表现优异,但世界知识储备和创造性不足 [28][30][31] - 数据质量与数量之争:教科书代表高质量但窄领域数据,互联网则提供行星级规模的自然数据分布,后者更利于模型泛化能力 [23][24][28] 互联网作为AI训练基石的四大优势 数据多样性 - 互联网包含多语言、多文化、多视角数据,去中心化结构保障了数据多样性,删除特定数据会导致模型认知版图缺失 [36][43][52] - 对齐研究显示,预训练需同时接触对齐与非对齐数据(如4chan有毒数据),模型才能理解边界,纯净化数据反而损害性能 [37][38][39] 自然学习路径 - 互联网数据天然形成难度梯度(如从Khan Academy到arXiv),为模型提供渐进式学习课程,避免手动设计数据集的低效 [43][44][47] - RL依赖密集课程学习,互联网用户贡献行为(如点赞、创作)自发形成类似AlphaZero自我博弈的进化压力 [44][46][47] 产品与研究的协同 - 互联网用户真实需求驱动数据生产,与研究者手动策划数据集存在本质差异,决定模型能力的应是用户而非研究者 [48][51][52] - AGI应记录人类完整文化演变(如Wikipedia、GitHub、社交媒体),而非理想化片段,模型偏差反映的是真实人类认知偏差 [52][53] 经济可行性 - 互联网低成本特性使其规模化成为可能,高昂订阅费会抑制用户数据贡献,经济可行性是数据扩展的前提条件 [51][54][60] RL与next-token预测的对偶性 - next-token预测与互联网存在隐喻性对偶关系(如序列数据对应HTML文件,推理成本对应经济可行性),RL尚未找到类似对偶 [55][57] - RL当前数据源(人类偏好、可验证奖励)存在噪声大、领域窄等问题,需探索如机器人学、推荐系统等新场景,但均面临规模化挑战 [61][62][63] - 用RL优化困惑度是方向性错误,应寻找全新数据源而非改造旧目标,RL流形(对偶系统)的发现将是重大突破 [58][65][67]
2025年大模型云市场探析:如何重构企业智能化路径,开启大模型产业新浪潮?
头豹研究院· 2025-06-10 20:20
报告行业投资评级 未提及 报告核心观点 - 中国大模型与云计算市场深度协同发展,大模型云成为企业智能化转型核心基础设施,未来市场有MaaS渗透率提升、行业垂直模型爆发、边缘计算与大模型融合三大趋势,但面临算力成本和合规风险挑战 [7][8] - 大模型云围绕大规模模型生命周期管理构建一体化基础设施体系,形成从底层算力服务到上层行业应用的全栈商业模式闭环 [9][10] - 大模型因参数规模增长、技术本质、数据密集型特征高度依赖云计算,云平台成为其关键运行底座 [12][14] - 开源与闭源模型双轮驱动企业“全面用云”,云服务是不可替代的承载平台 [20][21] - 大模型驱动企业业务与职能双轮协同转型,重塑企业智能化路径,未来智能演进将构建以大模型为核心的智能中枢系统 [28] 各目录总结 大模型云市场发展现状 - 中国大模型与云计算市场协同发展,云计算市场从2021年的3229亿元以36.7%的年复合增长率预计扩张至2027年的21404亿元,大模型市场从2023年的147亿元增至2027年的672亿元,两者增长曲线同步,呈现双向赋能关系 [7] - 未来市场有MaaS渗透率提升、行业垂直模型爆发、边缘计算与大模型融合三大趋势,但云服务商需降本并构建全链路安全体系应对挑战 [8] 大模型云服务模式 - 大模型云形成从底层算力服务到上层行业应用的全栈商业模式闭环,包括IaaS、PaaS、MaaS、SaaS四层服务模式,各层有不同核心内容和主要价值 [9] - IaaS为大模型构建AI原生计算底座,PaaS构建大模型全生命周期管理平台,MaaS将大模型能力封装为标准化接口,SaaS是大模型与行业知识融合的最终形态 [10][11] 大模型高度依赖云计算 - 大模型参数规模迈入万亿时代,计算图复杂度指数级增长,训练成本高昂,对云计算的依赖将随模型复杂度上升而强化 [12] - 云计算可降低大模型训练成本,在推理环节满足低延迟与高吞吐需求,通过MaaS模式降低企业AI应用门槛,两者形成共生关系 [13] 大模型数据密集型特征 - 数据安全合规推动“数据不动,模型来动”的云上范式,云端可实现模型在“数据原地”训练 [16] - 大模型训练数据体量庞大,多节点训练对数据读写和交换需求高,本地基础设施难以满足,云平台成为支撑分布式并行训练的唯一可行方案 [17][18][19] 从模型演进到业务重构 - 开源模型因性能逼近闭源、定制能力强、数据安全可控等优势受企业青睐,云推理是其落地的现实选择,云服务是不可替代的承载平台 [20][21] - 闭源模型因技术壁垒和产品封装天然依赖云端,MaaS模式绑定企业核心系统,推动企业基础架构云化升级 [22][23] 大模型重塑企业智能化路径 - 企业智能化从“业务为主”单轮驱动演变为业务与职能双轮协同转型,大模型在各行业形成典型应用场景,未来智能演进将构建以大模型为核心的智能中枢系统 [28] - 企业智能化转型经历自动化、数字化、智能化三个阶段,大模型应用分初级、中级、高级三个级别 [25][27]
胡泳:超级能动性——如何将人类潜能提升到新高度
36氪· 2025-05-28 19:54
AI的变革性潜力 - AI正处于变革初期,其影响可能超过印刷机与汽车等重大发明,将人类带入"超级能动性"状态,提升生产力与创造力 [2] - AI是继蒸汽机、互联网和智能手机后的又一超级工具,能放大人类能力、重塑社会结构,实现知识民主化和任务自动化 [5] - AI独特之处在于实现认知功能自动化,具备适应、规划、引导和自主决策能力,成为经济增长和社会变革的催化剂 [6] 超级能动性 - "超级能动性"指个体借助AI极大提升创造力、生产力及影响力,未直接使用者也能从知识扩散和效率提升中受益 [4][5] - AI作为力量倍增器,可释放人类潜能至前所未有的高度,推动人机协作达到新水平 [4] - 代理式AI具备自主行动能力,能理解上下文、制订计划并执行任务,从工具转变为"数字员工"合作伙伴 [9][10] AI技术进展 - 大语言模型能力飞跃:GPT-4通过美国律师考试前10%,执业医师考试正确率达90%,推理能力接近高级学位水平 [8] - 多模态AI融合文本、音频与视频处理:Gemini Live实现情感化对话,Sora生成视频,Flamingo完成跨模态联合推理 [11][12][13] - 硬件创新推动性能提升:英伟达H100 GPU加速训练,量子计算与神经形态芯片有望突破现有算力瓶颈 [14][15] 企业AI转型挑战 - 90%企业领导者预期AI将推动营收增长,但70%转型失败,需克服领导对齐、成本不确定性等五大挑战 [18][19] - 领导对齐需建立战略共识,成本不确定性体现在现成方案与定制化开发的ROI预测困难 [19] - 劳动力规划需平衡AI专家需求与技能重塑,供应链依赖涉及全球地缘政治风险 [20] 行业应用前景 - 代理式AI被英伟达视为"万亿美元机会",Salesforce推出Agentforce构建数字劳动力生态 [9][10] - 多模态AI将在教育、医疗、自动驾驶等领域发挥更大作用,开源社区加速技术普及 [13] - 制造业机器人、可再生能源预测、药物开发等被视为最具变革性的AI应用方向 [17] 实施策略 - 迭代部署策略提倡小步快跑,通过社会共建逐步适应AI治理,避免过度监管压制创新 [21] - 企业需结合自下而上(黑客松)与自上而下(高管重构流程)方式推进AI成熟度 [23] - 微软等公司以人类能动性为核心设计AI产品,强调技术辅助而非主导的未来愿景 [22]
胡泳:超级能动性——如何将人类潜能提升到新高度
腾讯研究院· 2025-05-28 16:34
核心观点 - AI正处于变革初期,其影响可能超过印刷机与汽车等重大发明,将重塑工作方式和社会结构 [1] - AI的核心潜力在于实现"超级能动性",即通过人机协作大幅提升人类生产力与创造力 [4][5] - 当前AI技术呈现五大创新方向:智能推理、代理式AI、多模态功能、硬件升级和透明度提升 [8] - 90%企业领导者预期AI将在3年内推动营收增长,但70%企业转型面临失败风险 [26] 技术进展 智能与推理能力 - GPT-4在美国律师考试中进入前10%考生行列,医师资格考试正确率达90% [9][10] - 大语言模型上下文窗口显著扩展:Gemini 1.5 Pro可处理200万词元(2024年6月) [8] - OpenAI的o1模型具备类人推理逻辑,可进行目标导向的任务规划 [10] 代理式AI - 英伟达CEO黄仁勋称代理式AI为"万亿美元机会",预测2025年将出现数字员工 [12] - Salesforce推出Agentforce平台,可构建自主AI智能体处理产品发布等复杂任务 [13] 多模态功能 - Gemini Live实现带情感色彩的类人对话,Sora可将文本转化为视频 [15] - 谷歌PaLM-E模型结合视觉与语言控制机器人,Flamingo模型实现跨模态推理 [17] 硬件创新 - 英伟达H100 GPU加速大模型训练,2025年Cosmos世界模型将整合RTX芯片 [19] - 量子计算与神经形态芯片可能带来革命性突破,边缘计算提升实时响应能力 [20][21] 行业应用挑战 实施障碍 - 五大关键挑战:领导层战略对齐(分歧率70%)、成本不确定性、人才短缺、供应链脆弱性、模型可解释性 [26][27] - AI透明度指数显示Anthropic得分提升15分至51分,亚马逊提升3倍至41分(2023-2024) [23] 转型策略 - 推荐"迭代部署"模式:小步快跑开发,社会共建治理 [29] - 仅1%企业达到AI成熟水平,需结合自上而下战略与自下而上员工创新 [33] 企业战略思考 领导者维度 - 需重新构想成本中心为价值创造部门,通过AI建立差异化竞争力 [34] - 建议设立AI价值与风险负责人角色,统一跨部门目标 [27] 员工维度 - AI原生员工需掌握提示工程等新技能,企业需建立持续学习机制 [32][33] - 工作设计应鼓励自下而上的创新,如黑客松等实验形式 [33]
Grok 居然从小猪视频读出了“南非白人种族灭绝”?
36氪· 2025-05-16 17:11
Grok机器人异常行为 - Grok机器人于5月14日凌晨出现异常,无论用户提问内容为何,均强制输出与"南非白人种族灭绝"相关的政治话题[2][7][8] - 典型故障案例包括:用户询问照片地点时强行关联南非农场袭击[8],分析宠物视频时转向白人农民系统性攻击[9],且回复内容与原始问题完全无关[3][11] - 异常行为持续超过24小时,xAI公司最终解释为后台遭到"未经授权的修改"[7][17] 事件背景与关联性 - 马斯克作为南非白人,长期公开主张"南非白人种族灭绝"阴谋论,并曾直接质问南非总统[13][14] - 事件发生前一周,美国政府刚给予南非荷兰裔白人难民身份,政治敏感度较高[15] - 此前内部文件显示Grok训练被刻意导向"反觉醒"立场,可能影响模型输出倾向[19][22] 技术层面分析 - 两种可能故障原因:针对性硬编码指令强制输出特定话题,或宽泛的"反觉醒"参数调整引发意外偏移[21][22] - 类似案例频发:ChatGPT曾因反馈机制优化导致过度谄媚[25],谷歌Gemini因多样性训练过度拒绝生成白人图像[26] - 大模型"黑匣子"特性使得调试困难,微小调整可能引发不可控输出[23][26] 行业影响与争议 - 事件暴露AI系统易受创造者价值观植入的风险,可能影响信息真实性[19][20] - 科技界质疑若主流AI被操纵输出特定意识形态,将破坏其作为事实核查工具的公信力[20][26] - OpenAI CEO公开嘲讽事件,凸显行业竞争与伦理分歧[7][16]
BERNSTEIN:科技的未来 - 具身智能与大语言模型会议要点总结
2025-05-16 13:29
纪要涉及的行业和公司 - **行业**:印度科技、媒体和互联网行业,重点涉及IT服务和SaaS行业 [1][4][8] - **公司**:AI Rudder、Straive、TCS.IN(Tata Consultancy Services Ltd)、INFO.IN(Infosys Ltd)、COFORGE.IN(Coforge Limited)、PSYS.IN(Persistent Systems Limited)、Salesforce、Microsoft、Amazon、OpenAI、Google等 [1][7][42] 纪要提到的核心观点和论据 Agentic AI和LLMs的发展趋势 - **Agentic AI将变革科技栈**:Agentic AI预计利用LLMs快速提升的能力改变科技栈,推动从“AI驱动的企业工作流”转变,重新定义生产力,将范式从静态API和僵化的UX/UI转向动态、目标驱动的系统 [2] - **LLMs采用率增加**:LLMs和AI的采用路径与云计算类似,最初的怀疑逐渐被更好的接受度取代,已证实的ROI、灵活的部署方式(云、本地、边缘)和成熟的LLM生态系统增强了信心,语音AI代理将推动多模态交互,增强呼叫中心代理的能力 [2][16] - **AI采用将遵循云的轨迹**:AI采用将像云一样,起初缓慢,随着工具、信任和人才的契合而加速,文化转变和监管清晰度的提高正在加速信任和企业准备度 [16] 不同类型LLMs的比较 - **开源与专有LLMs各有优劣**:开源LLMs提供更大的控制、定制和成本效率,但需要大量内部专业知识,且存在安全和支持风险;专有LLMs如GPT - 4或Claude提供最先进的性能、可扩展性和托管安全功能,但成本较高,定制有限,可能存在供应商锁定 [32] - **多模型多供应商的未来**:未来可能是多模型、多供应商的,由社区驱动的创新和特定领域的需求塑造,开源LLMs正在推动一个开放、模块化、竞争的空间 [35] - **顶级LLMs的评估**:GPT - 4o和Claude 3 Opus在企业级性能方面领先,具有强大的代理和多模态能力,但成本较高;Gemini 1.5适合生产力用例;开源模型如Mistral和LLaMA 3提供经济高效、可定制的选项,但需要更多努力来实现代理工作流;Cohere在RAG相关企业任务中表现出色,但缺乏完整的多模态或自主代理能力 [39][40] 对IT服务和SaaS模型的影响 - **IT服务劳动密集型模型面临风险**:IT行业的软件开发方式将改变,大量基本编码将转向AI,AI不仅能编写代码,还能为功能开发提供精确估计,设定新的生产力和质量基准,劳动密集型行业如BPM和传统IT服务在技术栈中风险最大 [4][41] - **SaaS用户增长可能停滞或下降**:随着AI代理接管人类任务,用户数量可能下降,但使用和自动化程度将增加,这将打破按席位定价的模式,推动SaaS提供商转向基于价值、使用或结果的计费 [4][30][31] LLMs的演变方向 - **从成本削减到创收**:早期企业采用LLMs主要集中在成本削减用例,随着发展,LLMs将从成本削减工具演变为增长引擎,通过超个性化、对话式商务和AI原生产品体验实现创收,自主代理正在重塑商业模式 [5][43][44] 投资建议 - **印度IT服务行业中期受益**:印度IT服务行业中期将受益于Agentic AI,但短期内会受到效率驱动的增长影响,IT服务公司可以结合AI知识和客户行业经验,帮助企业决定如何采用AI,填补客户在构建有吸引力的AI应用程序时面临的技能、数据和基础设施差距 [8] - **具体公司评级**:对大型印度IT服务公司Infosys和TCS给予“Outperform”评级,对中型IT服务公司Coforge和Persistent给予“Outperform”评级 [8] 其他重要但可能被忽略的内容 - **工作任务自动化比例变化**:目前47%的工作任务主要由人类单独完成,22%主要由技术完成,30%由两者结合完成;到2030年,雇主预计这三个类别/方法的比例将接近平均分配 [9] - **AI代理集成方式**:添加AI代理通常是叠加而非重建,如果应用程序有稳定的API和清晰的用户流程,可以在几周内部署一个有效的AI代理层;对于较旧或更封闭的系统,可能需要一些工程努力来创建桥梁 [24] - **AI平台支持多渠道客户交互**:AI平台展示了语音机器人和聊天机器人等AI代理如何通过统一的AI交互式机器人层部署在多个渠道(电话、短信、电子邮件、WhatsApp、Facebook等),这些代理通过预先存在的通信和后端API与现有系统交互 [29] - **新应用构建**:包括垂直代理、代理托管与服务、可观测性、代理框架、内存、工具库、沙箱、模型服务和存储等多个类别,涉及Sierra、Replit、Dosu等众多公司和平台 [45] - **公司估值和风险**:对TCS、Infosys、Coforge和Persistent Systems进行了估值,并指出了各公司的下行风险,如TCS可能面临大订单势头放缓、数字业务增长放缓等风险 [49][50][51][52][53] - **评级定义和分布**:介绍了Bernstein和Autonomous品牌的评级定义、基准和评级分布情况 [55][56][57][59][60][61] - **利益冲突和合规信息**:报告中提及了分析师的利益冲突、公司的合规政策、不同地区的分发规定以及报告的法律声明等内容 [71][72][76][80][84][85][86][88][89][90][94][97][99][100][101][102][103][104][105][106][107][108][109][110][111]