大语言模型
搜索文档
世界太小,不够世界模型们用了
36氪· 2025-12-04 17:29
文章核心观点 - AI行业对“世界模型”的定义和技术路径存在显著分歧,但普遍认为其是超越大语言模型、通往通用人工智能的必经之路 [1][2] - “世界模型”概念正经历严重的通货膨胀,其外延被无限扩大,成为一个涵盖环境理解与模拟上下游技术的宽泛“筐” [2][3][18][19] - 世界模型的兴起背后交织着资本焦虑、技术瓶颈和对AGI的渴望,并被视为一场“反LLM中心主义”的运动 [20][22] 概念起源与演变 - “世界模型”的思想最早可追溯至1943年认知科学家Kenneth Craik提出的“心智模型”,即大脑通过构建外部世界的微缩模型来进行预测 [4] - 2018年Jürgen Schmidhuber等人的论文《Recurrent World Models Facilitate Policy Evolution》首次系统定义了神经网络世界模型的框架 [4] - 近两年,随着大语言模型的爆发和对AGI的渴望,该概念迅速繁殖,衍生出众多抽象定义,如“自主智能”、“空间智能”、“压缩即智能”等 [5] 主要技术流派:表征派 - 以杨立昆为代表,主张世界模型是一个在潜在空间运作、预测“抽象状态”的“大脑”,而非生成具体画面 [7] - 其定义的世界模型需同时输入四个变量来预测下一时刻的世界状态,追求逻辑上的因果推演,而非视觉逼真 [12] - 提出的I-JEPA和V-JEPA模型摒弃了生成式AI“预测每一个像素”的做法,以避免浪费算力在不可预测的噪音细节上 [12] 主要技术流派:生成派 - 与表征派的核心区别在于旨在重建和模拟视觉世界,认为“我若无法创造,便不能理解” [13] - OpenAI的Sora被视为世界模拟器,其通过在海量视频数据上预测下一帧像素,试图涌现出对物理规律的理解 [13] - 生成派进一步衍生出互动式生成视频,如谷歌DeepMind的Genie 3,支持生成720p分辨率、24fps帧率的实时互动画面,理解动作与环境的因果关系 [14] 主要技术流派:3D空间智能 - 以李飞飞为代表,主张通过构建持久、高精度的3D环境来实现“空间智能” [16] - World Labs发布的Marble采用类似“3D高斯泼溅”的技术,将世界表征为成千上万个高斯体,以生成符合物理规律的3D世界 [16] - 该路线旨在生成可下载、高精度且物理准确的3D空间,区别于Sora的视频流和Genie 3的实时生成 [16] 行业现状与驱动因素 - 当前各技术路线的成果均未达到理想的世界模型状态,但概念已广泛挂钩于具身智能、自动驾驶、游戏视频、多模态模型、3D模型乃至视觉信息压缩等领域 [18] - 热潮背后存在巨大泡沫,部分源于创投圈需要新叙事来突破大语言模型竞争已定的格局,将“视频生成”等工具概念提升至AGI高度以吸引投资 [20] - 科研人员大规模下场创业,使得学术上的“定义之争”蔓延至商业世界,不同定义直接关联数十亿级别的算力投入和产业链方向 [21] - 行业对大语言模型产生集体性技术焦虑,认为其存在“离身”的先天缺陷,且性能提升的边际效益递减,因此转向对物理现实的模拟与交互被视为关键 [23]
南网能源院 | 业务动态(总第53期)
新浪财经· 2025-12-03 21:25
国际合作与技术交流 - 战略所参与中德能源工作组会议,围绕碳捕集利用封存和电力系统灵活性两大专题开展交流,并探讨后续全球能源战略研究合作 [1] - 主网部受邀参加第十三届电力系统控制、运行及管理发展国际会议,主持新型电力系统规划先进技术与实践专家研讨会,并发表适应新能源高渗透率系统的主旨演讲 [10] - 战略所研究员在IEEE能源工程与电力系统国际学术会议向国际学术界阐述大语言模型驱动电碳核算方法论的前沿研究 [9] 新型电力系统技术前沿 - 主网部参与柔性直流电网关键装备技术专题调研,围绕基础稳定理论、规划设计技术、关键装备研发等主题与高校及企业交流 [3][28] - 主网部研究员在全国电网技术交流会介绍南方电网保底电网规划建设历程、保底网架构建思路及防灾减灾差异化设计原则 [2][27] - 战略所研究员在新型电力系统国际论坛展示基于大语言模型的电碳核算认证关键技术,强调AI工具提升核算精准度与效率的潜力 [5][31] 电网规划与建设成果 - 广州电力设计院在全国优秀工程勘察设计奖评选中斩获3个奖项,包括220千伏漱玉变电站二等奖、500千伏楚庭送电线路三等奖等 [7][35] - 2025年标准设计与典型造价体系文件通过评审,为电网十四五末至十五五初期的规划建设提供统一技术依据与成本参考 [13][38] - 主网部研究员在《中国电力》年会介绍南方区域新型电力系统示范区建设的规划布局、示范成效及柔性构网技术展望 [5][32] 智能化与数字化转型 - 配网部调研电鸿物联操作系统实验室,就统一物联网数字化架构、智能终端等交流,支撑配电网十五五规划 [12][37] - 玉林供电局与南网能源院围绕新型配电系统转型,讨论四力提升、三大协同和六大推广技术在十五五规划中的应用 [16][41] - 战略所研究员在多个论坛探讨大语言模型在电碳核算、可持续交通燃料等领域的应用,展示智能化工具在能源行业的潜力 [5][9][21] 新能源与跨领域研究 - 咨询评审中心研究员在氢电协同技术论坛发表氢能在新型电力系统中作用的主旨演讲,探讨多种应用场景和发展趋势 [19][44] - 新能源部调研成都勘探设计研究院,围绕西南水电基地开发建设等议题深入交流 [23][48] - 投资所与北京大学探讨超充技术对电网风险影响、课题合作等,战略所参与可持续交通燃料专委会预备会讨论绿色转型等议题 [19][21][44][46]
腾讯公司副总裁蒋杰:AI让广告每个环节都在提效,腾讯会更多启用AI人才
36氪未来消费· 2025-12-03 20:50
AI对广告业务的提振作用 - 腾讯广告三季度收入增速达21%,为过去六个季度新高,所有主要行业广告主投放均增长,AI驱动的广告定向带动eCPM增长 [2] - 腾讯广告AIM+智能投放产品使广告主每万元投放费用所需操作次数下降80%,创意环节操作次数减少47% [2] - AI优化使部分广告库存点击率提升至3%左右,显著高于横幅广告0.1%和信息流广告1.0%的历史水平 [10] - 腾讯广告妙思通过AIGC使行业商家日产出素材从20条/人/天提升至60条/人/天,人效提升300%,综合素材生产成本降低50% [11] - 妙思实现客户渗透率65%,每日有300万条创意被分发应用,微信小店广告约47%的有效创意来自妙思 [11] AI技术演进方向 - 广告系统未来呈现判别式与生成式双轨发展,生成式能利用大语言模型解决广告冷启动问题 [7] - 在召回、粗排阶段用生成式替代判别式已取得较大效果,并体现在财报营收数据上 [7] - 视频生成延时从5分钟缩短至5-10秒,小模型应用前景广阔,混元8B模型和OCR 1B模型推理成本低 [10] - 未来技术重点包括大语言模型智能上限提升、多模态能力、3D世界模型,这些将应用于广告体系 [12][13] - 未来广告系统将从级联方式转向端对端方式,实现根据用户即时兴趣实时生成互动广告素材 [11] 广告行业变革与竞争格局 - 腾讯视频号广告加载率维持在4%左右,远低于业内10%-15%的水平,体现商业化克制 [6] - AI加剧技术革新和行业竞争,但广告主年度营销费用总额大体不变,只是投放形式发生改变 [11] - 优化师角色将从投放操作转向创意生产,原创内容重要性凸显,广告与内容边界将模糊化 [8] - 生成式AI面临Prompt优化、素材筛选等挑战,这些仍需要优化师的专业能力 [9] AI人才市场现状 - 2025年1-7月AI新发岗位量同比增长超10倍,简历投递量暴涨11倍,算法人才持续紧缺 [3] - 搜索算法人才紧缺度最高,岗位与人才比例达5:2,非技术岗数量同比增长7.7倍 [3] - 企业AI岗位数量排名前五为字节跳动、小红书、阿里巴巴、蚂蚁集团、腾讯 [4] - AI人才市场呈"卖方市场"特征,顶尖学生手握多个offer,更看重实战场景、数据丰富度和导师资源 [19] 腾讯的人才策略 - 腾讯广告算法大赛吸引全球近30个国家8400余人报名,奖金池360万元,20强中约75%为00后 [4] - 大赛选手仅凭脱敏数据做出的方案已不逊于工业界实践,显示学界与工业界知识体系接轨 [16] - 腾讯通过"青云计划"提供优质实战环境、高端薪酬和培养体系,吸引顶尖人才 [17][18] - 当前更看重应聘者的综合能力、项目经验和工程能力,而非单纯学历背景 [21][22] - 现代AI人才具备更强独立工作能力,1-3人团队可完成传统大团队任务 [23][24]
中山大学最新论文登上Cell头条
生物世界· 2025-12-03 18:00
研究概述 - 中山大学中山眼科中心团队在Cell子刊Cell Reports Medicine上发表了一项随机对照试验研究,评估大语言模型在医学人工智能研究中对医生的有效性[2][4] - 研究旨在探索大语言模型能否帮助医生克服技术障碍,协助其开展医疗人工智能研究[4] 研究背景与设计 - 跨学科研究推动了数字医学等领域的发展,但人工智能在生物医学的广泛应用受限于医生的技术障碍,特别是偏远地区或资源有限的年轻医生团队[6] - 研究招募了64名初级眼科医生,进行为期两周的“自动化白内障识别”项目,采用优效性、开放标签的随机对照试验设计[6] - 干预组32人使用ChatGPT-3.5,对照组32人不使用大语言模型,旨在最小化工程辅助的情况下评估效果[6] 核心研究发现 - 干预组项目总完成率显著高于对照组,达到87.5%,而对照组仅为25.0%[7] - 干预组无辅助完成率也远高于对照组,分别为68.7%和3.1%[7] - 干预组展现出更优的项目规划能力和更短的完成时间[7] - 经过两周洗脱期后,41.2%的成功干预组参与者能够在没有大语言模型支持的情况下独立完成新项目[7] - 大语言模型将医疗AI项目的完成率从25%提升至87%,并使41%的成功干预医生在后续能独立完成新项目[11] 潜在风险与影响 - 调查显示,42.6%的参与者担心会不加理解地复述AI信息,40.4%的参与者担忧AI会助长惰性思维,表明存在潜在的依赖性风险[7] - 大语言模型虽能帮助医生克服技术障碍并促进医疗AI研究民主化,但存在幻觉和依赖风险,其长期风险仍需进一步研究[8][11][12] - 研究提出了与大语言模型有效互动的初步提示指南[11]
OpenAI内忧外患拉响“红色警报”:多个项目暂停 神秘模型曝光!
每日经济新闻· 2025-12-03 12:58
公司战略调整 - OpenAI CEO宣布公司进入“红色警报”状态,暂缓非核心项目以集中资源提升ChatGPT能力[1][3] - 被暂停的项目包括商业化前景广阔的广告业务、自动化处理复杂任务的AI Agent项目以及个性化资讯报告功能Pulse[3][4] - 公司首席财务官向投资者承认ChatGPT增长出现放缓,CEO警告谷歌的强势回归可能带来短期经济压力[3] 竞争格局与市场表现 - 谷歌Gemini在桌面和移动端的单次平均使用时长飙升至7.2分钟,首次超越ChatGPT的约6分钟[7] - ChatGPT月度下载量约8700万仍领先,但Gemini从2025年年中每月约1500万下载量一路飙升至10月底的约6600万,追赶速度惊人[10] - Salesforce CEO公开表示在使用Gemini 3两小时后,因其在推理、速度、图像、视频方面的优势而放弃使用三年的ChatGPT[13] 技术发展与产品路线图 - OpenAI计划下周发布一款全新推理模型,内部评估显示其性能比Gemini 3更强[5] - 公司研发新一代代号为“Garlic”的模型,修复了GPT-4.5早期结构中的问题,预计明年初作为GPT-5.2/GPT-5.5发布[5] - 在开发Garlic过程中预训练取得重大突破,能够将大型模型知识打包到更小架构中[5] 财务状况与资本开支 - 据测算,从2025年到2030年,OpenAI在云和算力成本将高达7920亿美元,到2033年算力承诺总额飙升至1.4万亿美元[14] - 到2030年,公司累计自由现金流仍为负,资金缺口高达2070亿美元,必须通过额外融资或更激进创收手段填补[14] - 随着一笔380亿美元贷款方案加入,围绕OpenAI的债务总额逼近1000亿美元大关[15] - 公司未来八年数据中心项目承诺投资总额约为1.4万亿美元,巨额开支让软银、甲骨文、CoreWeave等合作伙伴负债累累[16]
奥特曼发红色警报,大模型走进死胡同了吗 ?
36氪· 2025-12-03 12:31
行业技术瓶颈 - 大语言模型训练成本飙升但性能提升显著放缓,2019-2022年成本增加10倍性能提升25%-35%,2023年后同样成本投入性能提升降至10%-15%,2024年以来成本翻倍性能提升不足5% [2][3] - 头部模型性能表现趋同,在关键基准测试上得分集中在一个狭窄区间,2025年11月排名第一和第十的模型Elo评分差距从2024年6月的超过150分收窄至不足50分 [10] - 曾经被视为黄金定律的Scaling Law正在失效,模型代际更新间隔拉长,例如Meta Llama模型从第三代到计划推出的第四代间隔已超过15个月 [11][12] OpenAI面临的竞争与内部挑战 - 公司宣布进入"Code Red"紧急状态,竞争对手谷歌Gemini 3模型在基准测试上实现超越,其月活跃用户从2025年7月的4.5亿增长至10月的6.5亿,同时Anthropic的Claude周访问量达0.41亿人次,较六周前增长17.1% [1][3] - 自2024年5月GPT-4o发布后,公司顶尖研究人员未能成功完成一次大规模全面预训练,GPT-5相比GPT-4更像是微调优化而非代际升级,其MMLU评分仅比GPT-4提升10%-20% [6][7] - 公司调整策略重心转向优化现有产品ChatGPT,改进个性化功能、速度及可靠性,并推迟广告、健康AI代理等其他项目开发,鼓励员工调岗并每日召开改进会议 [8] 技术困境的根本原因 - 大语言模型面临"不可约误差"限制,当模型足够强不再犯低级错误后,由语言本身歧义和不确定性造成的误差无法通过增加数据、算力或改进算法消除 [14][15][16] - 高质量训练数据面临枯竭,GPT-4几乎已用完互联网上高质量文本,剩余大量低质量内容,使用AI生成数据训练会导致"模型崩溃",使模型输出多样性下降并放大自身错误 [20][21] - 互联网上已充斥大量AI生成内容,未来模型通过爬取网络获取训练数据将不可避免包含这些内容,使模型崩溃从理论问题转变为实际威胁 [22] 行业未来发展方向争议 - 以李飞飞为代表的观点认为大语言模型只是AI系统组件,未来需要发展能理解三维物理世界的"世界模型",使用逻辑规则和符号推理而非统计模式 [23][24] - 杨立昆等学者批评语言模型路径只是学习统计规律而非真正理解世界,实现真正智能需让AI建立对物理世界基本概念的模型 [25][27] - OpenAI和Anthropic坚持"规模假说",认为继续扩大模型规模、投入更多数据和算力,智能会"自动涌现",语言模型路径仍有潜力达到AGI [28][29]
华为、京东、优必选等先后入局,AI玩具成AI硬件新蓝海?
国际金融报· 2025-12-03 12:09
行业热度与市场前景 - AI玩具赛道热度迅速攀升 2025年上半年京东平台销量环比激增六倍 同比增速超200% [1] - 预计到2030年 AI玩具全球市场规模将突破千亿量级 年复合增长率超过50% 国内市场规模有望突破百亿 年复合增长率超70% [5] - 行业毛利率颇具吸引力 定价300-400元的基础款毛利率约50%-65% 1500-3000元的中高端产品毛利率约70%-85% 个别高端产品毛利率达90%以上 [5] 主要参与者与资本动态 - 赛道参与者多元 包括跃然创新 珞博智能等初创公司 奥飞 汤姆猫等传统玩具厂商 以及京东 荣耀 华为等科技大厂 [1] - 2024年以来 AI玩具赛道已有超30起投融资事件 吸引近百家投资机构 超20家相关初创公司获得融资 [4] - 近期巨头密集发布新品 例如优必选推出“优崽” 华为与珞博智能联合开发“智能憨憨”开售即售罄 [3] 驱动因素与增长逻辑 - 社会趋势如“单身经济” “老龄化” “精细化育儿”推动了对情感陪伴的现实需求 AI玩具提供了新的情感解决方案 [5] - 大语言模型在情绪理解与自然对话能力上的持续突破 推动生成式AI技术向情感交互产品加速渗透 [6] - AI芯片 多模态传感器等关键硬件达到量产水平 软硬件双重突破使产品爆发成为可能 [6] 产品现状与核心挑战 - 市场尚未诞生真正的爆款 产品同质化趋势明显 例如“优崽”与“智能憨憨”的核心逻辑高度相似 [2][7] - 用户体验存在不足 包括交互生硬 答非所问 无法敏锐感知情绪变化 缺乏自然连续对话能力等 [7] - 数据安全与隐私问题突出 产品需持续采集用户隐私数据以构建动态记忆 引发消费者对数据泄露与滥用的疑虑 [8] 商业模式与未来展望 - AI玩具的想象空间不止于硬件销售 其本质是触达用户的入口 更大的价值在于通过持续提供内容与交互服务实现长期变现 [8] - 订阅服务是潜在商业模式 例如提供年费一两百元的互动订阅 或与喜马拉雅等内容平台合作拓展收入来源 [9] - 行业仍处于早期发展阶段 距离真正走向成熟或许仍有漫漫长路 [2]
为什么OpenAI要启动“红色警报”?英伟达是否也要亮红灯?图说AI竞争
华尔街见闻· 2025-12-03 06:17
OpenAI战略调整与竞争压力 - OpenAI CEO宣布启动“红色警报”,将全部资源集中于优化ChatGPT,以应对谷歌Gemini的激烈竞争,并推迟了包括广告业务、健康和购物AI代理等在内的其他产品开发 [1] - 公司表示仍需改进ChatGPT的日常体验,包括提升个性化功能、速度和可靠性,并扩大可回答问题的范围 [1] - OpenAI面临来自谷歌和Anthropic等多方竞争压力,谷歌新版Gemini AI模型在行业基准测试中超越了OpenAI [20][22] 谷歌Gemini用户增长与市场表现 - 市场数据显示,11月谷歌Gemini的月度下载量达到1.008亿次,而ChatGPT为6780万次 [2] - 用户现在在Gemini上的聊天时间已超过ChatGPT或Claude等竞争对手 [4] - 自谷歌Gemini 3发布以来的两周内,ChatGPT的每日独立活跃用户数(七天均值)已下降6% [6] - 谷歌透露,Gemini的月活跃用户从7月的4.5亿增长至10月的6.5亿 [22] 谷歌TPU芯片进展与市场影响 - 瑞银分析师指出,谷歌新一代TPU芯片Ironwood及其生态系统正在对英伟达构成实质性挑战 [1][10] - Ironwood芯片针对大语言模型、专家混合模型和高级推理进行优化,支持训练、微调和推理工作负载 [11] - 相比前代Trillium芯片,Ironwood拥有更多计算资源、FP8支持和大幅增加的HBM容量(192 GiB vs 32 GiB),预计单芯片性能将显著超越Trillium [14] - Ironwood的峰值计算性能(FP8)为每芯片4614 TFLOPs,HBM带宽为每芯片7380 GB/s,TPU规模可扩展到最多9216个芯片 [15] - 谷歌通过使用自研定制芯片训练AI模型,已经“显著提升了性能” [19] 英伟达的回应与市场展望 - 英伟达强调与谷歌云平台的牢固关系,指出谷歌在Gemini推理工作负载中同时使用TPU和GPU [23] - 公司认为云服务商不太可能在其云堆栈中运行TPU,因为需要大量工作负载优化才能在专用集成电路上实现总体拥有成本优势 [23] - 英伟达指出,Anthropic的1吉瓦容量和HUMAIN的60万单位扩张是其2025-2026年5000亿美元订单数量之外的增量 [23] - 英伟达的CPX芯片正在瞄准需要100万以上token上下文窗口的高级编程应用,该应用约占推理市场的20% [23] 行业投资与竞争格局 - OpenAI的ChatGPT目前占全球搜索活动的约10%且增长迅速,搜索被视为最大的机遇领域之一 [9] - OpenAI拥有未来八年总额约为1.4万亿美元的承诺资金投入,用于数据中心项目以维持其行业领先地位 [23] - 自谷歌发布Gemini 3以来,其母公司Alphabet股价在不到两周内累涨超10%,上周一周涨超14% [20] - 瑞银认为,Meta和苹果是内部TPU部署的主要候选对象,因为它们拥有大型AI项目、庞大的内部AI集群,且对谷歌云平台的依赖相对较小 [19]
OpenAI正开发大语言模型“Garlic”。(The Information)
华尔街见闻· 2025-12-02 23:05
文章核心观点 - 文档内容为标准的风险提示与免责声明,未包含任何关于具体公司、行业、市场事件或财务数据的实质性信息 [1] 根据相关目录分别进行总结 - 文档未提供任何可总结的行业动态、公司业绩、财务数据或市场事件 [1]
DeepSeek-V3.2正式版及高计算版发布
新华网· 2025-12-02 20:14
公司动态 - 深度求索公司于12月1日晚间宣布发布两个正式版模型:DeepSeek-V3.2和高计算版本DeepSeek-V3.2-Speciale [1] - 公司推出的DeepSeek-V3.2模型在保持卓越推理能力和智能体性能的同时,实现了高计算效率的平衡 [1] - 深度求索公司全称为杭州深度求索人工智能基础技术研究有限公司,成立于2023年7月 [1] 行业与产品 - 深度求索公司专注于大语言模型及多模态AI技术研发 [1]