Workflow
大语言模型
icon
搜索文档
AI 智能体老“崩”?DeepSeek 前员工联手李飞飞等大佬开源新框架,教会模型真正推理
AI前线· 2025-04-24 11:03
AI智能体发展现状 - 2025年被视为"AI智能体元年",但目前64.2%的企业AI智能体仍处于试点阶段,仅6.4%表现超出预期[1][2] - 行业普遍面临智能体从实验室到规模化应用的过渡难题,24.8%的企业反馈现有方案需高投入[2] RAGEN系统技术突破 - 由王子涵团队开发的RAGEN系统采用StarPO强化学习框架,通过"状态-思维-动作-奖励"策略优化实现多轮交互训练[5][7] - 系统创新性地引入两阶段训练:rollout阶段生成完整交互序列,update阶段基于归一化奖励更新参数[7] - 使用阿里巴巴Qwen系列开源模型作为基础,确保实验可复现性并支持符号任务对比[9] 训练稳定性解决方案 - 发现"回声陷阱"现象:模型在训练后期倾向于复制高奖励回答导致推理能力退化[12] - StarPO-S框架新增三项机制:基于不确定性的rollout筛选、移除KL惩罚项、非对称PPO剪裁,使训练崩溃率显著降低[19] - 在Bandit/Sokoban/Frozen Lake三个测试环境中验证,奖励水平平均提升30%以上[17][19] 企业应用挑战 - 任务多样性、交互粒度和rollout新鲜度被确认为影响训练效果的三大关键因素[22] - 当前奖励机制存在"重结果轻过程"缺陷,需优化奖励设计逻辑以维持长期推理能力[23][24] - 符号类任务到真实业务场景的迁移仍存挑战,如发票处理等场景需重新设计环境[24] 开源生态建设 - RAGEN系统及StarPO/StarPO-S框架已在GitHub开源,采用MIT协议[10][14] - 项目获得微软、斯坦福等机构支持,技术路线可能重塑大模型训练范式[2][9]
AI动态汇总:openAI发布GPT-4.1,智谱发布GLM-4-32B-0414系列
中邮证券· 2025-04-23 15:54
根据提供的研报内容,以下是量化模型与因子的详细总结: 量化模型与构建方式 1. **模型名称:GPT-4.1** - **模型构建思路**:通过API形式发布,提升编程、指令遵循和长文本理解能力,同时优化性价比[12] - **模型具体构建过程**: - 代码能力:在SWE-bench Verified测试中得分54.6%,比GPT-4o提升21.4%[13] - 指令遵循:Scale's MultiChallenge基准测试得分38.3%,比GPT-4o提升10.5%[13] - 长上下文:支持100万tokens处理能力,在Video-MME基准中得分72.0%(提升6.7%)[13] - 训练优化:通过定制化工具评估指令遵循(如格式遵循、负面指令、有序指令等)[19] - **模型评价**:在编程和长文本任务中表现卓越,但被质疑与GPT-4.5差异较小[12] 2. **模型名称:GLM-4-32B-0414系列** - **模型构建思路**:320亿参数密集模型,支持本地部署,对标GPT系列和DeepSeek V3/R1[26] - **模型具体构建过程**: - 预训练:使用15T高质量数据(含推理类合成数据)[26] - 后训练:通过拒绝采样和强化学习增强指令遵循、代码生成和函数调用能力[28] - 衍生版本: - GLM-Z1-32B-0414:通过冷启动和扩展强化学习提升数理能力[31] - GLM-Z1-Rumination-32B-0414:结合搜索工具处理复杂开放性问题[34] - **模型评价**:在工程代码和复杂任务中媲美更大规模模型[29] 3. **模型名称:Seed-Thinking-v1.5** - **模型构建思路**:采用MoE架构(200B总参数/20B激活参数),专注STEM和创意任务[35] - **模型具体构建过程**: - 数据优化: - 可验证数据(数学/代码):三重清洗(人工筛选→模型过滤→多模型验证)[38] - 非可验证数据(创意写作):两两对比奖励法优化生成质量[38] - 训练机制:双轨奖励(硬指标对错+软偏好优劣)[40] - **模型评价**:在STEM领域表现突出,泛化能力优于DeepSeek R1[35] 4. **模型名称:GPT-o3/o4-mini** - **模型构建思路**:融合图像推理至思维链,自主调用工具提升视觉任务性能[42] - **模型具体构建过程**: - 视觉推理:通过原生图像处理(裁剪/放大/旋转)实现多模态思考[46] - 基准表现:在MMMU、MathVista等视觉任务中刷新SOTA[46] - **模型评价**:编程和视觉推理能力接近“天才水准”,但需高算力支持[43] 5. **模型名称:BitNet b1.58 2B4T** - **模型构建思路**:20亿参数三值权重(-1/0/+1)模型,降低计算资源需求[49] - **模型具体构建过程**: - 架构创新:BitLinear层(1.58位存储)+ 8位整数量化激活值[49] - 训练阶段:4万亿token预训练→监督微调→DPO优化[52] - **模型评价**:内存占用仅0.4GB,性能逼近全精度模型[49] 6. **模型名称:Video-R1** - **模型构建思路**:7B参数视频推理模型,基于R1范式和T-GRPO算法增强时间建模[63] - **模型具体构建过程**: - 数据集:Video-R1-COT-165k(SFT冷启动)+ Video-R1-260k(RL训练)[67] - 训练方法:Qwen2.5-VL-7B基础模型 + T-GRPO强化学习[68] - **模型评价**:在VSI-Bench超越GPT-4o,泛化能力显著[68] 7. **模型名称:Pangu-Ultra** - **模型构建思路**:135B密集模型,纯昇腾集群训练,优化深度网络稳定性[69] - **模型具体构建过程**: - 架构改进:Sandwich-Norm层归一化 + TinyInit参数初始化[74] - 性能表现:在AIME 2024、MATH-500等任务中比肩DeepSeek-R1[74] - **模型评价**:中文任务全面领先,数学/代码任务具竞争力[73] --- 模型的回测效果 1. **GPT-4.1** - SWE-bench Verified:54.6%[13] - Scale's MultiChallenge:38.3%[13] - Video-MME:72.0%[13] 2. **GLM-4-32B-Base-0414** - 工程代码/函数调用:媲美GPT-4o[29] 3. **Seed-Thinking-v1.5** - AIME 2024:86.7%[35] - Codeforces:55.0%[35] 4. **GPT-o3/o4-mini** - Codeforces:>2700分(全球前200)[43] - AIME 2025:99.5%(配合Python解释器)[43] 5. **Video-R1** - VSI-Bench:35.8%(超越GPT-4o)[68] 6. **Pangu-Ultra** - MATH-500:97.4%[74] - GPQA Diamond:74.2%[74] --- 技术备注 - **MCP协议**:简化AI工具集成,配置效率从100×100降至100+100[54] - **Sandwich-Norm架构**:通过Pre-Norm + 子层 + Post-Norm提升训练稳定性[74] (注:因研报未涉及量化因子内容,故未列出相关部分)
Agent、DeepSeek、多模态热点炸场!60+重磅嘉宾共探AI未来,2025全球机器学习技术大会完美收官!
AI科技大本营· 2025-04-21 18:24
以下文章来源于CSDN ,作者CSDN CSDN . 成就一亿技术人 作者 | 《新程序员》编辑部 出品 | CSDN(ID:CSDNnews) 在万物向 "智 " 生长的 2025 年,AI 领域的热潮持续升温,正引领着技术革新与产业探索的新浪潮。 了新的破解思路?围绕这些关键问题,欢迎回看大会首日视频,看众多技术大咖如何从理论、算法到实际应用层面进行了深度剖析 ,以此 了解 AI 技术 的更多最新进展: 大模型技术创新驱动的 AI 生态和应用演进 李建忠 CSDN 高级副总裁、 Boolan 首席技术专家 4 月 18-19 日,由 CSDN 联合高端 IT 咨询与教育平台 Boolan 举办的 2025 全球机器学习技术大会(ML-Summit 2025),在上海虹桥西郊庄园丽笙 大酒店隆重拉开帷幕。本次大会围绕 AI 最前沿的发展趋势与落地实践,聚焦大语言模型技术演进、AI 智能体、具身智能、DeepSeek 技术解析与行业 实践等 12 大专题,邀请了超 60 位来自全球顶尖科技企业与学术机构的重磅嘉宾齐聚一堂,全面呈现 AI 领域的技术风向与应用前沿。 在生成式 AI 重构技术边界的浪潮下,产业实 ...
类脑智能是AI新突破关键,上海全链条布局产业新赛道
第一财经· 2025-04-19 13:49
类脑智能技术发展 - 中科院院士蒲慕明提出借鉴大脑结构和计算特点突破人工智能在算力、数据和参数规模的限制,实现更高级别的通用人工智能[1][5] - 类脑智能技术研究涵盖类脑人工网络、类脑机器学习、类脑芯片等领域,随着算力、芯片、算法三要素突破及多学科交叉融合,类脑智能迎来新发展契机[1] - 当前人工智能性能提升面临算力和数据瓶颈,类脑智能通过优化新算法与人工网络模型,借鉴人脑神经网络结构,可突破现有限制[5] 类脑智能战略意义 - 科技部五司副司长董琪表示类脑智能是人工智能前沿领域,有望成为驱动数字经济、智慧社会发展的战略新引擎[4] - 蒲慕明强调加快布局类脑智能技术对我国实现人工智能技术新突破具有重要战略意义[5] - 上海市科委副主任屈炜指出上海正全链条布局类脑智能产业新赛道,推动技术从实验室走向实用化[8] 类脑智能产业生态建设 - 类脑智能产业创新发展联盟成立,由中国信息通信研究院牵头,成员包括灵汐科技、时识科技、中电海康、华为、长安汽车等企业[7] - 联盟将制定类脑智能标准体系、构建数据集,探索智能网联汽车、具身智能机器人、智能医疗终端等应用场景[7] - 类脑智能未来产业基金矩阵由10家投资机构联合发起,聚焦类脑智能产业新赛道,支持前沿技术研究与应用[7] 类脑智能应用前景 - 蒲慕明认为未来5-10年类脑智能最重要的应用场景之一是具有高等智能的人形机器人,需将大语言模型与物理系统结合[6] - 上海通过深化基础理论研究、加快核心技术攻关,在类脑计算芯片、类脑视觉系统研发等领域取得重要成果[7] - 上海将建设类脑智能概念验证中心、应用示范场景和未来产业集聚区,加速产业链协同发展[8] 类脑智能跨领域融合 - 蒲慕明指出类脑智能需实现脑科学与人工智能融合,但目前两领域交叉程度不足[6] - 脑机接口目前与类脑智能无关,人工智能、类脑研究、脑机接口是三个相对独立领域[6] - 未来技术发展可能促进三个领域的融合[6]
元戎启行周光:智驾最终拼的是 AI 技术,不只是规模丨具身智能对话#13
晚点Auto· 2025-04-14 21:47
自动驾驶技术路线 - 行业存在多种技术路线实现无人驾驶,包括基于高精地图的RoboTaxi路线(Waymo、小马智行)和渐进式路线(特斯拉)[5] - 元戎启行提出新解法RoadAGI,借鉴大语言模型发展路径:从弱专家模型→通才→强专家模型,认为智驾系统也需要经历类似过程[5][6][8] - RoadAGI战略旨在打造移动能力的"通才"系统,可应用于汽车、摩托车、配送小车等多种移动终端,最终实现L5级自动驾驶[5][6][9] 技术范式迭代 - 智驾技术范式从Transformer到BEV再到端到端,主要由特斯拉引领,但特斯拉不再公布细节后行业出现技术路线分歧[6] - 元戎启行是行业少数坚持技术判断的公司,最早提出前融合、无高精地图、端到端等技术,目前是国内三家量产上车城市NOA的供应商之一[6] - 公司正在推进VLA模型(视觉-语言-动作模型),认为技术断代领先能带来商业机会[11] 行业竞争格局 - 2024年一季度特斯拉FSD进入中国市场,虽然不完全适应中国路况但基础能力强大[6][15] - 比亚迪、吉利等车企将智驾门槛拉低到10万元以下车型,打响普及战[6] - 有能力自研智驾的车企越来越少,多数选择与供应商合作,供应商经历洗牌后仅剩头部玩家[6] 公司发展策略 - 元戎启行当前量产车型达4万台,预计2024年将达20万台,认为10万与100万的数量级差距是1倍而非10倍[13] - 强调AI能力比规模更重要,认为L5五年内实现的概率不低,大模型方法将改变行业[15][16] - 工程能力与技术能力同等重要,通过首个量产项目建立了体系能力,现在可同时服务多个客户[11][12] 产品与技术理念 - RoadBrain是RoadAGI战略下的产品,作为移动能力的"通才"阶段,目标是实现不同终端1000公里接管一次,最终在汽车上实现10万公里接管一次[6][9] - 认为单一场景数据有限,需要自行车、摩托车等多终端数据丰富模型知识[9] - 下一代车端方案将是统一的数据驱动大模型,不同于传统端到端,符合大语言模型工艺但参数量适中[9] 行业趋势判断 - 特斯拉FSD V13在美国已达到"无接管意愿"水平,与Waymo差距缩小[15] - 华为是"点燃中国智驾之火"的公司,其无图方案的成功促使车企改变防守心态[15] - 智驾终局将趋于同质化,差异仅体现在驾驶风格偏好,但当前距离真正好用还有差距[15]
Circle to Search, XOXO:「圈定即搜」功能交互解析与入门指南
36氪· 2025-04-14 15:52
Circle to Search功能概述 - Circle to Search是Google联合三星在Galaxy S24系列和Pixel 8系列首发的屏幕交互功能 通过手势圈选实现文字 图片的即时搜索与操作 所有识别处理均在本地完成[2][3] - 功能支持一键翻译 听歌识曲 链接跳转等工具 搜索结果直接显示在屏幕下半部分 用户可复制文字或分享图片[3] - 该功能于2023年1月启动开发 团队仅用三页纸说明便快速完成原型 最终选择"圈选"而非"点击"作为核心交互方式 因其更符合用户直觉[8][9] 技术实现与竞争优势 - 采用Android Ink API实现墨迹追踪 通过降低流动感优化延迟 使圈选操作跟手性达到业界领先水平[25] - 相比vivo HyperOS等模仿方案 Circle to Search无需等待分区完成即可记录手势 响应速度提升50%以上 且支持轻点 涂抹等多种选择方式[10][13][15] - 背靠Google搜索生态 能即时返回时效性结果 而竞品依赖大语言模型多模态识别 平均延迟达3-4秒且准确率较低[17][18][20] 应用场景与用户价值 - 覆盖音乐识别 跨平台听歌 外语学习 数学计算等高频场景 例如圈选歌名可直接跳转Spotify等平台 识别算式即时显示结果[48][49] - 与Pixel设备深度整合 支持通过Screenshots应用本地保存圈选内容 并利用Gemini Nano 2模型实现后续检索[29][52] - 在社交 导航场景表现突出 如圈选餐厅名称自动关联Google Maps信息 解决食べログ等应用内嵌地图体验不佳的痛点[51] 市场覆盖与行业影响 - 截至2025年3月 已适配Google Pixel 三星Galaxy 小米 vivo等12个品牌国际版设备 形成安卓生态标准功能[29][31] - 被评价为"智能手机AI最有用的瞬间" 促使国际版定制UI放弃自研方案转而接入Google服务 奠定交互新范式[15][58] - 开发过程中坚持Material Design理念 动画设计克制高效 与行业普遍追求炫酷特效的趋势形成鲜明对比[23][27]
人类一生所学不过4GB,加州理工顶刊新研究引热议
量子位· 2025-04-13 12:08
人类信息处理能力研究 - 人类信息处理速度仅为每秒10bit,感官系统数据收集速率达每秒10亿bit,二者比值高达1亿倍[2][12] - 24小时不间断学习且不遗忘的情况下,100年知识储量上限仅为4GB,相当于70亿参数大模型存储量的1/350[1][3][16] - 中枢神经系统采用串行处理方式导致信息传输速率受限,表现为"心理不应期"效应[21][22] 信息处理速率测算方法 - 通过打字(10bits/s)、演讲(13bits/s)、盲拧魔方(11.8bits/s)等行为测算人类信息处理速度[13] - 视觉系统单视锥细胞传输速率达270bits/s,双眼总传输速率高达3.2Gbps/s[18] - 综合多种行为测算结果显示人类信息处理速度集中在5-50bits/s范围[14][15] 进化视角的认知限制 - 早期神经系统为检测气味浓度梯度演化出串行处理架构[23] - 进化过程中形成的认知架构限制了多任务处理能力[24] - 现有处理速度已满足生存需求,庞大神经元网络用于任务切换和信息整合[25] 技术应用启示 - 马斯克脑机接口面临10bits/s基础限制,电话通信已匹配人类语言传输需求[6][33] - 算力提升将推动机器在各类任务中超越人类表现[4][27] - 脑机接口价值在于信息编解码而非突破速率限制[34] 学术争议与讨论 - 研究引发对打字员与听者比特率等效性的质疑[46] - 每秒10bit是否真的"慢"存在不同解读视角[47] - 研究团队包含认知神经科学领域资深学者Markus Meister及其博士生Jieyu Zheng[37]
元戎启行周光:智驾最终拼的是 AI 技术,不只是规模丨具身智能对话#13
晚点LatePost· 2025-04-10 22:52
自动驾驶技术路线 - 行业存在多种技术路线实现无人驾驶 包括基于高精地图的RoboTaxi路线和特斯拉的渐进式路线 [2] - 元戎启行提出新解法RoadAGI 借鉴大语言模型发展路径 从弱专家到通才再到强专家模型 [2][3] - RoadAGI旨在打造移动能力通才系统 可应用于汽车/摩托车/配送小车等多种终端 为L5级自动驾驶奠定基础 [3][5] 技术演进与创新 - 智驾技术范式经历多次迭代 从Transformer到BEV再到端到端 特斯拉曾是主要引领者 [3] - 元戎启行率先采用前融合/无高精地图/端到端/VLA等新技术范式 是国内三家量产城市NOA的供应商之一 [3] - 通才模型通过多终端数据训练 可实现能力跃迁 如1000公里接管的通才系统在汽车上可能达到10万公里接管 [6] 行业竞争格局 - 特斯拉FSD进入中国市场 虽未完全本地化但基础能力强大 国内智驾水平相当于FSD V12阶段 [12] - 比亚迪/吉利等车企将智驾门槛降至10万元以下 多数车企选择与供应商合作 二线供应商已遭淘汰 [3] - 当前量产车辆达4万台 预计2024年提升至20万台 数量级差异对数据收集的影响呈对数关系而非线性 [10] 工程与商业化 - 工程能力与技术能力同等重要 元戎启行通过首个量产项目建立体系 接单效率从30人/项目提升至10人/项目 [9] - 供应商需平衡技术迭代与客户服务 元戎启行目标在实现L5基础上发展物理世界通用AI 而非单纯追求规模 [12][13] - 车企与供应商数据共享形成共赢 模型迭代可提升产品效果促进销售 [11] 未来发展方向 - L5级自动驾驶被视为可实现目标 大模型方法出现后五年内落地概率显著提升 [12] - 终局阶段智驾差异化将减弱 核心是提供符合用户偏好的"司机"体验 但当前技术距真正好用仍有差距 [12] - 物理通用人工智能(AGI)成为更长期愿景 超越单一自动驾驶范畴 [15]
招商银行首席信息官周天虹:大语言模型给银行业带来的四重变化
财经网· 2025-04-10 20:22
文章核心观点 2025年4月10日“人工智能与金融未来”国民财富发展研究合作平台2025春季峰会在北京召开,招商银行首席信息官周天虹称大语言模型这波人工智能浪潮主角,其在银行业有广阔应用空间,能带来积极影响 [1] 大语言模型为银行业带来的变化 - 服务模式从“以重点客户为中心”转变为“以每个客户为中心”,此前80%投入服务20%客户,大语言模型助力实现“千人千面”个性化服务覆盖所有客户 [2] - 工作模式形成人类员工和智能体员工高效协同新局面,智能体员工可协助甚至一定程度替代人类员工完成简单重复性工作 [2] - 交互模式从“GUI”演变到“GUI+Chat”,基于客户意图动态组织界面,带来更好感受 [2] - 数据分析方面大模型提升分析效率、降低门槛,使“人人都能做数据分析” [3]
【广发金工】DeepSeek定量解析基金季报行业观点及行业轮动策略构建
大语言模型在金融领域的应用 - 大语言模型(LLMs)凭借强大的文本理解、信息提取和推理预测能力,正在改变传统金融分析和决策方式,为投资管理、市场分析、风险控制等领域带来新机遇 [1][9] - LLMs能处理海量非结构化数据如新闻报道、社交媒体、企业财报等,帮助投资者更快获取关键信息,并具备情感分析能力识别市场情绪变化 [9] - DeepSeek系列模型基于Transformer架构,使用GQA和FlashAttention2技术优化,开发成本仅600万美元,每百万输入Tokens价格0.14美元,显著低于ChatGPT 4.0的2.50美元 [15] 基金季报行业观点定量解析方法 - 通过DeepSeekV3模型对约18000份主动型权益基金季报观点文本进行行业观点解析,样本筛选标准包括存续超5年、权益仓位超60%、规模超2亿等条件 [28] - 模型输入需加入特定提示词明确任务目标,输出格式设定为"行业名称:得分",单次计算平均耗时10秒,总耗时约50小时处理20M输入和3M输出tokens [35][36] - 行业观点统计显示电子(58.55%)、电力设备(65.25%)、计算机(55.98%)等行业提及率最高,机械设备看多比例达91.18%,房地产看空比例54.15% [44] 行业轮动策略构建与表现 - 构建14个行业观点指标,包括看多/看空比例、关注度及其环比变化等维度,指标间相关性分析显示关注度与看多比例呈正相关(0.92) [61][62] - 测试发现基于看空比例及其环比变化的策略在熊市表现优异,而看多比例策略仅在牛市阶段跑赢行业平均 [67][71] - 结合看多比例和关注度的组合策略中,"低比例关注+低比例看多"组合表现最佳,而"高比例关注+高比例看多"组合未跑赢行业平均 [77][80] 行业关注度动态变化特征 - TMT板块关注度在2023Q1(AI概念行情)和2024Q3显著上升,电子、计算机等行业长期保持高关注度 [47] - 消费板块中食品饮料、医药生物关注度较高但呈下降趋势,纺织服装、轻工制造平均提及率不足10% [49] - 上游周期板块2021年关注度短暂上升后回落,煤炭行业因红利风格保持相对高关注度 [51] - 中游制造板块电力设备、汽车行业关注度随新能源行情波动,机械设备行业关注度稳定 [54]