大语言模型

搜索文档
关于“思考”的思考
虎嗅· 2025-05-30 11:34
时常觉得自从深度学习和"大语言"模型出来以后,大多数人除了更加不爱深入思考了(毕竟即时的快乐和身临其境的 体验似乎更值得),也越来越不爱讲话了。语言文字似乎都有点"过时"了,容易变得词不达意,或者"说多了都是鸡 同鸭讲"。看着一些GenZ的朋友第一选择已经是用视觉语言和语音在传达,以及学习是直接跟随AI给的输出,是不是 现在只要一思考,人类也会发笑呢。 AI似乎把"思考"这项能力的成本压缩到了接近零,如果你不想主动思考,确实可以不需要。这对人和组织又意味着什 么呢?人又会如何走向完全不同的方向呢(分化与异化)?我们是不是确实在走进一个vibe everything"氛围"主导一切 的世界?还没有确切的答案。 今天分享的这篇文章来自Dustin Curtis的个人博客,他是一位设计师和投资者,在网上的信息并不多。 希望这篇文章有启发。 但现在,每当我脑中自然浮现出一个可能有趣的点子时,我只需随手打出几行粗糙的提示词,就能几乎立刻得到一个 逻辑完备、论证充分、表达流畅的成品想法(I can just shove a few sloppy words into a prompt and almost instant ...
谷歌之后,英伟达入局扩散大语言模型,Fast-dLLM推理速度狂飙27.6倍
机器之心· 2025-05-30 11:28
核心技术 - 分块 KV 缓存(Block-Wise KV Cache)通过双向缓存策略实现90%以上的激活重用率,显著减少重复计算 [6][12] - 置信度感知并行解码(Confidence-Aware Parallel Decoding)通过动态阈值筛选(如≥0.9置信度)确保生成逻辑连贯性,避免无效组合 [9][13] - 伪代码展示无需训练即可集成到现有扩散LLM(如LLaDA、Dream)的即插即用加速流程 [15][16] 性能突破 - 在LLaDA模型上实现27.6倍端到端加速,1024 token长文本生成耗时从266秒压缩至12秒,单步延迟从0.26秒降至0.09秒 [18] - GSM8K任务中保持76%准确率的同时实现8.1倍吞吐量提升,HumanEval代码生成任务准确率提升1.2%且吞吐量增加3.7倍 [21] - 主流基准测试中精度损失控制在2%以内,验证技术通用性(兼容LLaDA、Dream等模型) [19][21] 应用价值 - 零训练成本特性支持快速集成到现有系统,不改变模型架构或训练流程即可提升推理效率 [20] - 特别适用于长文本生成(如代码、数学推理)和实时交互场景,解决传统扩散模型推理效率瓶颈 [17][23] - 技术设计为非自回归模型提供新优化范式,有望推动扩散模型在工业级部署中的普及 [23]
2025国际人形机器人技能大赛召开 业内呼吁理性包容机器人行业“成长的烦恼”
证券时报网· 2025-05-29 22:07
以"具身智能,未来已来"为主题的2025张江具身智能开发者大会暨2025国际人形机器人技能大赛5月29 日在上海浦东张江举行。2025国际人形机器人技能大赛设置5大赛道,覆盖28个高难度场景,60余支顶 尖参赛队伍和国内外参赛选手共同参赛。本次大赛旨在于集中展示人形机器人解决实际问题的能力和场 景应用落地能力,助力机器人产业向"能看、会说、有智商"进阶。 国家地方共建人形机器人创新中心首席科学家江磊在接受证券时报记者采访时表示,上海聚焦人形机器 人在生产制造、服务场景中的实际应用,强调 "解决实际问题"。本次大赛设定商超、药店、工业制造 等真实场景任务,以场景驱动行业回归实用。江磊说,公众需以包容的心态看待机器人行业发展现状。 行业的快速发展仅有三年左右时间,如同"三岁儿童",需给予它更长的时间发育。 参赛者:理性看待机器人行业发展进度 当天,上海开普勒K2"大黄蜂"团队、北京理工大学急行智学团队、清华大学紫荆战队等60余支顶尖参 赛队伍和国内外参赛选手,在9个比赛场地同步展开激烈角逐。 记者了解到,此次赛事的所有项目均源自企业实际需求,每个赛道都还原了真实应用场景,总体难度较 大。因此,机器人未能完成任务并 ...
Linear-MoE:线性注意力遇上混合专家的开源实践
机器之心· 2025-05-29 19:38
大语言模型架构发展 - 近年来大语言模型领域的研究热点集中在取代Transformer的高效模型架构及预训练 主要包括线性序列建模和混合专家(MoE)两部分 但两者的结合研究较少 Linear-MoE架构的开源实现此前完全缺失 [1] - 近期广受好评的MiniMax-01模型(使用Lightning Attention-MoE)和腾讯混元TurboS模型(使用Mamba2-MoE)均属于Linear-MoE架构 [1] - 上海人工智能实验室团队最新成果Linear-MoE首次系统性地实现了线性序列建模与MoE的高效结合 并开源了完整技术框架 包括Modeling和Training两大部分 支持层间混合架构 [1] 线性序列建模技术进展 - 线性序列建模技术核心优势在于线性时间复杂度的训练和恒定内存占用的推理 主要分为线性注意力(Linear Attention) 状态空间模型(SSM)和线性RNN(Linear RNN)三大类 [5] - 代表性工作包括Lightning Attention GLA Mamba2 RWKV等 研究表明这些模型可通过统一的递归形式表达 反映出技术流派逐渐收敛至统一表达形式 [5] 混合专家(MoE)技术应用 - 国际上的GPT-4系列 Gemini系列 Claude系列以及国内的DeepSeek系列 Qwen系列 腾讯混元LLM 字节豆包 MiniMax-01 Moonshot-Kimi等都在All in MoE [8] Linear-MoE架构设计 - Linear-MoE支持线性序列建模层与MoE层的灵活组合 同时兼容传统Softmax Attention Transformer层 形成混合架构 [10] - 模块化架构包括LSM层(支持Lightning Attention Gated-DeltaNet Mamba2等方法)和MoE层(集成Qwen-MoE DeepSeek-MoE Mixtral-MoE等实现) [10] - 高效训练技术基于Megatron-Core框架开发 支持张量并行 流水线并行 专家并行 LASP和MegaBlocks等优化技术 [10] Linear-MoE性能验证 - 混合模型(线性+Softmax Attention)比纯线性模型表现出更稳定的训练曲线 [13] - 借助专家并行和MegaBlocks 系统在超大参数规模下仍保持高吞吐量 [13] - 线性模型推理速度比传统架构快2-5倍 内存占用降低50%以上 [13] - 在不同规模基准测试中 Linear-MoE展现出良好的性能线性增长 [13] 开源生态与未来方向 - Linear-MoE已全面开源 支持多种主流线性序列建模方法和MoE实现 填补了技术空白 提供可复现的高效训练方案 [13] - 未来将探索Linear-MoE在长上下文理解 Vision-Language模型架构中的应用潜力 [13]
重新理解Agent的边界与潜力:AI转型访谈录
36氪· 2025-05-29 18:53
行业趋势 - 2025年被业界称为"Agent元年",各类AI Agent产品快速涌现,但市场尚未形成统一定义[1] - AI Native公司正突破传统框架,探索Agent在商业洞察、创意生成、组织变革等领域的深层价值[1] - 大语言模型使模拟研究从群体行为转向个体层面,催生"生成式社会科学"新兴学科[13][15] 产品创新 - Atypica.ai通过大语言模型模拟真实用户行为,构建典型用户画像(Persona),解决无标准答案的商业问题[3][4] - 采用多智能体协同工作模式:一个Agent扮演专家采访其他模拟用户,实现高效低成本的大规模用户访谈[6][18] - 独创发散优先模型,允许AI生成非共识观点,适用于需要多元视角的商业问题[5][24] - 工作流程分三步:明确商业问题→生成典型用户画像→多Agent访谈并生成图文报告[17][18] 应用场景 - 解决四大商业问题:市场洞察(如新能源汽车需求分析)、产品共创、产品测试(如巧克力配方选择)、内容规划[19] - 支持跨语言商业分析,如外国企业直接获取中国社交媒体数据并生成本土化报告[20] - 与权威媒体合作整合严谨数据源,平衡社交媒体多元观点与事实准确性[22][23] 技术特点 - 基于大语言模型激发特定个性特征,通过Context控制模拟深度(从简短发帖到长篇访谈)[31] - 采用预设题库+动态提问机制,使问题更贴合用户需求[35] - 保留AI"幻觉"的积极价值,拓宽思维边界,特别适合民意调查等非共识场景[24][27] 组织变革 - AI推动工作方式从专业化分工转向复合型人才,公司架构向更少岗位、更多技能方向发展[40][41] - 开发周期从两周迭代缩短至单日多次迭代,小团队(2-3人)可独立负责端到端项目[43] - 企业需平衡数据安全、私有数据整合、深度分析、结果转化等需求[38] 产品战略 - 避免"老瓶装新酒"模式,主张"新瓶装新酒"(全新AI产品)或"新瓶装旧酒"(AI重构交互)[48][49] - 重点打造账号个性化(Personality),基于企业数据源进行内容再创造而非简单改编[53] - 开发反对型AI交互,突破大模型过度驯服的问题,增加观点多样性[56][58] 未来展望 - 多智能体交互可暴露人类决策盲区,辅助管理者获得新视角[59][60] - 虚拟Agent可能成为观察人类社会的"镜像",其形态发展尚难预测但潜力巨大[5][59] - 行业需探索基于AI能力重新设计工作流程,而非简单叠加Copilot功能[52][53]
重新理解Agent的边界与潜力|AI转型访谈录
腾讯研究院· 2025-05-29 17:28
Agent市场现状与定义 - 2025年被称为"Agent元年",各类Agent产品快速涌现,但市场尚未形成统一定义[1] - 主流观点将Agent视为传统工具升级版,但其变革潜力可能远超预期[1] - AI Native公司正突破"效率工具"框架,探索Agent在商业洞察、创意生成等领域的深层价值[1] Atypica.ai产品创新 - 采用大语言模型模拟真实用户行为,构建用户画像并驱动决策流程[3][5] - 首创发散优先模型,适合处理商业问题的非共识和艺术性部分[3][26] - 通过多智能体交互揭示人类决策盲区,形成创新研究方法[3][63] - 工作流程包括问题定义、任务分解、社交媒体搜索(Persona生成(5-100个)和访谈总结[18][19] 商业应用场景 - 解决四大类商业问题:市场洞察(如发现MPV需求)、产品共创、产品测试和内容规划[20] - 典型案例包括新能源汽车市场分析、巧克力配方测试和小红书账号定位[20] - 实现跨国调研效率提升(如法语提问直接生成中国社交媒体分析报告)[21] - 正在整合权威媒体数据源,增强定量分析能力[23] 技术实现路径 - 基于Deepseek v3构建上层推理层,专注发散优先模型开发[26][27] - 通过Context激发大模型已有个性特征,而非创造新个性[34] - 采用预设题库+动态调整的提问机制,提升访谈质量[37] - 开发重点从群体模拟转向个体行为研究[13][16] 组织变革影响 - 推动工作方式从专业化分工向复合型技能转变[43][45] - 典型项目团队从10人缩减至2-3人,开发周期从两周缩短至单日多次迭代[47] - 目标让300人公司每位员工发挥"独角兽"潜力,增强端到端责任感[45][47] - 产品开发模式从300人天规划转变为10人天为上限的敏捷模式[47] 行业转型建议 - 避免"老瓶装新酒"式AI改造,应开发真正的新型产品("新瓶装新酒")[53] - 内容行业需注重账号Personality塑造,从简单改编转向个性创作[57][58] - AI陪伴领域需突破模型过度驯服问题,增强个性表达[60][61] - 企业转型应重新设计工作流程而非单纯提升效率[56]
亚太传播学者齐聚文莱共议人工智能、语言与可持续传播
人民网-国际频道 原创稿· 2025-05-29 13:29
人民网讯 5月27日至28日,2025年APCA-ANPOR-UBD会议于在文莱达鲁萨兰大学成功举办。本届会议以"亚太地区的传播与语言:连接、协作与可持 续性"为主题,吸引了来自中国、文莱、印度尼西亚、韩国、马来西亚、菲律宾、新加坡、泰国、美国及其他国家和地区的众多传播学者与实务工作者,围 绕可持续传播实践、人工智能在教育与跨文化交流中的深远影响、数字媒体伦理及语言多样性等议题展开深入研讨。 中国驻文莱大使肖建国与文莱大学副校长Hazri bin Haji Kifle博士出席了开幕式。此次会议由亚太传播学会联盟(APCA)、亚洲公众舆论研究网络 (ANPOR)与文莱达鲁萨兰大学联合主办,共收到200余份投稿,遴选出近百篇优秀论文进行现场报告,展示了亚太地区在传播与语言研究领域的活力与多 样性。 新加坡南洋理工大学邱林川教授发表的主旨演讲引发热烈反响。他以"生成式人工智能时代的学习反思:大语言模型与真实世界学习"为题,探讨了大语 言模型在教育传播中的潜力与伦理挑战,引发与会者广泛讨论。 中国驻文莱使馆肖建国大使与亚太传播学会联盟的成员合影。活动主办方供图 中国驻文莱使馆肖建国大使与亚太传播学会联盟成员和合作主办 ...
小鹏汽车-W(09868):同级领先智能辅助驾驶,定价超预期
长江证券· 2025-05-29 07:30
报告公司投资评级 - 买入(维持) [6] 报告的核心观点 - 2025年5月28日小鹏MONA M03 MAX版本上市,智驾能力领先,叠加渠道变革和营销体系加强,公司销量有望加速提升;规模提升、平台和技术降本效果将进一步体现,叠加软件盈利的商业模式拓展以及出海持续增长,公司财务有望持续改善 [2] 根据相关目录分别进行总结 事件描述 - 2025年5月28日,小鹏MONA M03 MAX版本正式上市,包括502长续航Max和600超长续航Max两款,售价分别为12.98和13.98万元,搭载满血版AI天玑系统与图灵驾驶辅助,实现同级领先城市智能辅助驾驶功能 [4] 事件评论 - 配置大幅升级,外观新增车漆颜色、无边框后视镜等,内饰新增拂晓紫配色等功能,定价超预期,销量有望持续提升 [9] - 小鹏MONA M03 Max全球首发人机共驾,智驾实力大幅领先,搭载双Orin - X芯片,算力高达508TOPS,依托鹰眼纯视觉方案和大模型,智能辅助驾驶功能远超同档车型,人机共驾适应驾驶者风格,智能座舱全面升级,新增功能超300项,自研XGPT大语言模型语义理解准确率提升40% [9] - 小鹏MONA M03自2025年1 - 4月平均月销超1.5万辆,本次MAX版本上市有望提振销量;2025Q2预期交付量10.2 - 10.8万辆,同比增长237.7 - 257.5%,预期收入175 - 187亿元,同比增长115.7% - 130.5% [9] - 后续新车密集上市,6月开启G7预热发布,Q3发布全新一代P7、交付两款全新重磅车型,Q4小鹏鲲鹏超级电动车型逐步量产;预期公司Q4单季度扭亏,实现全年规模自由现金流 [9] - 智能驾驶领先,渠道变革和营销体系加强,叠加新车周期,公司销量快速提升;规模提升、平台和技术降本效果将体现,软件盈利商业模式拓展以及出海持续增长,公司未来盈利具备较大弹性;预计2025年收入为991亿元,对应PS 1.3X,给予“买入”评级 [9]
Jeff Dean:一年内 AI 将取代初级工程师,网友:“Altman 只会画饼,Jeff 说的话才致命”
AI前线· 2025-05-28 13:17
谷歌AI发展现状与未来展望 - 谷歌传奇工程师Jeff Dean预测一年内将出现具备初级工程师能力的24/7全天候AI系统 [1][14][15] - 谷歌在AI领域贡献包括Transformer架构、BERT论文、TPU研发等关键技术 [1][5] - 谷歌AI发展遵循"模型越大、数据越多、结果越好"原则,12-15年来持续验证该规律 [5][6] AI技术演进路径 - 多模态成为重要趋势,AI可处理音频/视频/图像/文本/代码等多种输入输出形式 [6] - 智能体技术潜力巨大,未来几年物理机器人智能体将能完成数十种实际工作 [7][8] - 知识蒸馏技术可将强大模型压缩为轻量级模型,适配更多应用场景 [8][9] 硬件与基础设施 - 谷歌TPU硬件历经多代演进,最新Ironwood将接替Trillium版本 [17] - Pathways系统实现单一Python进程控制上万设备,已向云客户开放 [20] - 模拟计算在功耗效率方面具优势,数字计算仍有专业化空间 [18][19] 行业竞争格局 - 构建最先进模型需巨额投资,最终市场可能仅存少数几个通用强大模型 [8][13] - 算法改进与硬件投入同等重要,Gemini模型代际演进中算法贡献显著 [13] - 稀疏模型(如混合专家结构)可提升10-100倍效率,是未来重要方向 [26][27] AI应用场景突破 - AI已能根据YouTube视频自动生成教育游戏,成功率约30% [11] - 大型多模态模型将重塑搜索引擎,可能深度集成至Chrome浏览器 [12] - AI加速科学发现,神经网络替代传统模拟器速度提升30万倍 [18][19] 开发者生态 - 云TPU开发者体验存在改进空间,正推进Google Cloud与Gemini堆栈统一 [21] - 计算范式变革要求算法分析需考虑网络/内存带宽等硬件特性 [24][25] - 未来计算平台需适应训练/推理差异化需求,平衡资源分配 [22][23]
一个省略号提示+强化学习搞定大模型“过度思考”,中科院自动化所新方法:从强制推理到自主选择
量子位· 2025-05-28 12:22
大模型推理优化技术 - 核心观点:AutoThink通过省略号提示词+多阶段强化学习,使大模型具备根据题目难度自主切换思考模式的能力,实现"按需思考"的智能推理[2][5][6] - 行业痛点:当前主流推理模型(如DeepSeek-R1/Claude 3.7/Qwen3)存在过度思考问题,导致简单问题消耗过多计算资源,复杂问题可能因冗余推理降低准确率[3][4] 技术实现路径 - 最小干预设计:仅需在prompt中加入省略号"…"即可触发模型自主选择思考模式,未训练时已能实现随机模式切换[9][10] - 三阶段强化学习: 1) 阶段一通过动态奖励平衡防止模式坍缩,维持思考多样性[16][17] 2) 阶段二放开限制优化准确率,模型自主发展出难度感知能力[18] 3) 阶段三引入长度感知奖励,压缩冗余推理同时保持性能[19][20] 性能提升数据 - 在DeepSeek-R1-Distill-Qwen-1.5B模型上,AutoThink-Stage3实现51.7%准确率,较标准提示提升3.1个百分点,同时减少51.8%的Token消耗[23] - 对已强化学习的DeepScaleR模型仍能额外节省10%计算资源,证明该方法具备模型普适性[21] 行为模式分析 - 难度匹配:模型在Math类简单题思考比例仅28.1%,复杂题(如AMC23)思考比例升至67%,呈现显著正相关性[29] - 内部机制:不思考模式仍保留"Calculate/Check"等关键词,表明其进行快速内部推理而非随机猜测[28] 行业应用前景 - 该技术已集成至ScienceOne智能科研平台,将用于训练其基座大模型S1-Base[39] - 当前局限包括奖励规避和推理预算控制问题,后续将重点优化[41]