Workflow
大语言模型
icon
搜索文档
云南探索创建智能执法大模型
中国环境报· 2025-04-24 09:35
项目背景与目标 - 项目旨在解决云南省生态环境执法面临的执法人员少、监管范围广、监管难度大等问题 [1] - 核心目标是构建一个能够实现智能问答、智能分析和智能决策的生态环境智能执法监管模式 [1] 数据基础与语料库建设 - 模型依托云南省生态环境数据资源中心汇聚的数据资源,整合了排污单位信息、执法检查信息、企业经营信息、企业舆情、失信行为及投诉举报等相关数据 [2] - 语料库收集整理了500余份全国及云南省环境执法领域法律法规文件、100余个执法典型案例以及6万余个污染源数据 [2] - 通过标准化处理形成大语言模型语料库,为模型训练提供高质量数据基础,并为执法人员提供智能问答与分析服务 [2] 智能应用与功能场景 - 模型训练搭建了四个智能助手:环保知识助手、污染源助手、违法行为分析助手和污染源统计分析助手 [3] - 环保知识助手基于法律法规和标准规范数据,实现环保知识智能问答与执法要点智能生成 [3] - 污染源助手基于企业基本信息、排污许可信息和行政处罚记录,为现场执法提供污染源信息快速参考 [3] - 违法行为分析助手可智能分析企业违法行为,生成处罚建议并提供依据 [3] - 污染源统计分析助手能根据问题自动生成文字、图表、表格等分析结果,提升统计分析效率 [3] - 通过智能助手,模型为环境风险智能推荐、执法要点生成、违法行为分析、执法智能分析和智能决策五大场景提供支持 [3] 未来发展规划 - 下一步将在现有模型基础上,进一步激活生态环境数据潜能,开展人工智能应用探索 [4] - 计划逐步推动人工智能技术嵌入生态环境监管各项业务,加快监管业务的数智化转型 [4]
新东方海外营收增速放缓,暂无开发大模型计划
第一财经· 2025-04-23 21:50
海外备考和咨询业务增长放缓是受到宏观经济形势和国际关系变化的影响。 | (in thousands US$, except per ADS(1) data) | 3Q FY2025 | 31 | | --- | --- | --- | | Net revenues | 1,183,055 | | | Operating income | 124.519 | | | Non-GAAP operating income (2)(3) | 142,056 | | | Net income attributable to New Oriental | 87,255 | | | Non-GAAP net income attributable to New Oriental (2)(3) | 113,344 | | | Net income per ADS attributable to New Oriental - basic | 0.54 | | | Net income per ADS attributable to New Oriental - diluted | 0.54 | | | Non-GAAP net ...
AI动态汇总:openAI发布GPT-4.1,智谱发布GLM-4-32B-0414系列
中邮证券· 2025-04-23 15:54
根据提供的研报内容,以下是量化模型与因子的详细总结: 量化模型与构建方式 1. **模型名称:GPT-4.1** - **模型构建思路**:通过API形式发布,提升编程、指令遵循和长文本理解能力,同时优化性价比[12] - **模型具体构建过程**: - 代码能力:在SWE-bench Verified测试中得分54.6%,比GPT-4o提升21.4%[13] - 指令遵循:Scale's MultiChallenge基准测试得分38.3%,比GPT-4o提升10.5%[13] - 长上下文:支持100万tokens处理能力,在Video-MME基准中得分72.0%(提升6.7%)[13] - 训练优化:通过定制化工具评估指令遵循(如格式遵循、负面指令、有序指令等)[19] - **模型评价**:在编程和长文本任务中表现卓越,但被质疑与GPT-4.5差异较小[12] 2. **模型名称:GLM-4-32B-0414系列** - **模型构建思路**:320亿参数密集模型,支持本地部署,对标GPT系列和DeepSeek V3/R1[26] - **模型具体构建过程**: - 预训练:使用15T高质量数据(含推理类合成数据)[26] - 后训练:通过拒绝采样和强化学习增强指令遵循、代码生成和函数调用能力[28] - 衍生版本: - GLM-Z1-32B-0414:通过冷启动和扩展强化学习提升数理能力[31] - GLM-Z1-Rumination-32B-0414:结合搜索工具处理复杂开放性问题[34] - **模型评价**:在工程代码和复杂任务中媲美更大规模模型[29] 3. **模型名称:Seed-Thinking-v1.5** - **模型构建思路**:采用MoE架构(200B总参数/20B激活参数),专注STEM和创意任务[35] - **模型具体构建过程**: - 数据优化: - 可验证数据(数学/代码):三重清洗(人工筛选→模型过滤→多模型验证)[38] - 非可验证数据(创意写作):两两对比奖励法优化生成质量[38] - 训练机制:双轨奖励(硬指标对错+软偏好优劣)[40] - **模型评价**:在STEM领域表现突出,泛化能力优于DeepSeek R1[35] 4. **模型名称:GPT-o3/o4-mini** - **模型构建思路**:融合图像推理至思维链,自主调用工具提升视觉任务性能[42] - **模型具体构建过程**: - 视觉推理:通过原生图像处理(裁剪/放大/旋转)实现多模态思考[46] - 基准表现:在MMMU、MathVista等视觉任务中刷新SOTA[46] - **模型评价**:编程和视觉推理能力接近“天才水准”,但需高算力支持[43] 5. **模型名称:BitNet b1.58 2B4T** - **模型构建思路**:20亿参数三值权重(-1/0/+1)模型,降低计算资源需求[49] - **模型具体构建过程**: - 架构创新:BitLinear层(1.58位存储)+ 8位整数量化激活值[49] - 训练阶段:4万亿token预训练→监督微调→DPO优化[52] - **模型评价**:内存占用仅0.4GB,性能逼近全精度模型[49] 6. **模型名称:Video-R1** - **模型构建思路**:7B参数视频推理模型,基于R1范式和T-GRPO算法增强时间建模[63] - **模型具体构建过程**: - 数据集:Video-R1-COT-165k(SFT冷启动)+ Video-R1-260k(RL训练)[67] - 训练方法:Qwen2.5-VL-7B基础模型 + T-GRPO强化学习[68] - **模型评价**:在VSI-Bench超越GPT-4o,泛化能力显著[68] 7. **模型名称:Pangu-Ultra** - **模型构建思路**:135B密集模型,纯昇腾集群训练,优化深度网络稳定性[69] - **模型具体构建过程**: - 架构改进:Sandwich-Norm层归一化 + TinyInit参数初始化[74] - 性能表现:在AIME 2024、MATH-500等任务中比肩DeepSeek-R1[74] - **模型评价**:中文任务全面领先,数学/代码任务具竞争力[73] --- 模型的回测效果 1. **GPT-4.1** - SWE-bench Verified:54.6%[13] - Scale's MultiChallenge:38.3%[13] - Video-MME:72.0%[13] 2. **GLM-4-32B-Base-0414** - 工程代码/函数调用:媲美GPT-4o[29] 3. **Seed-Thinking-v1.5** - AIME 2024:86.7%[35] - Codeforces:55.0%[35] 4. **GPT-o3/o4-mini** - Codeforces:>2700分(全球前200)[43] - AIME 2025:99.5%(配合Python解释器)[43] 5. **Video-R1** - VSI-Bench:35.8%(超越GPT-4o)[68] 6. **Pangu-Ultra** - MATH-500:97.4%[74] - GPQA Diamond:74.2%[74] --- 技术备注 - **MCP协议**:简化AI工具集成,配置效率从100×100降至100+100[54] - **Sandwich-Norm架构**:通过Pre-Norm + 子层 + Post-Norm提升训练稳定性[74] (注:因研报未涉及量化因子内容,故未列出相关部分)
启明创投周志峰:大模型公司没有价值吗?今年AI应用将全面落地
21世纪经济报道· 2025-04-23 14:27
公司投资实践与成果 - 启明创投自2013年起将AI作为聚焦投资领域,已向80多个AI项目投资超100亿元人民币 [1] - 所投项目中,20余个已成长为上市公司或独角兽企业,包括优必选和文远知行等 [1] - 公司已投资14家大语言模型、多模态模型、具身智能模型或端到端智驾模型的领军企业 [1] - 团队协助管理着规模达100亿元的北京市人工智能产业投资基金 [1] 行业演进路径与市场结构预判 - 行业观点认为,当前众多模型公司策略各异,未来两三年内可能不再被称为AI企业或模型公司,而是定义为“应用企业” [1] - 从市场结构看,应用层企业将占据市场主体地位,预计99%的企业都将是应用企业,并捕获AI技术浪潮70%—80%的价值 [2] - 任何一轮科技浪潮始于底层基础技术耕耘,核心指标是性能从“能用”到“好用”以及成本从“高不可攀”到“轻松消费” [2] - 当性能与成本均达临界点时,应用就会爆发,预判2025年将成为AI应用全面落地的大年 [1][2] 技术发展与成本趋势 - AI使用成本呈现出每年超百倍的显著下降趋势 [2] - 基于性能与成本双重指标触及关键阈值,2025年还将成为AI应用从单一工具向平台性产品转型的重要节点 [2] - OpenAI o1模型在门萨测试中“智商”得分达120分,超越了全球75%人类的智商水平 [3] - 近期发布的o4模型智商测试表现达140分,逼近人类天才水平,意味着新一代AI模型可以干点超越人类表现的工作 [3] 未来投资布局与行业影响 - 团队将持续在基础设施层、模型层和应用层进行投资布局 [3] - AI将更像是朝霞,慢慢照进生活空间,而非仅是横空出世的颠覆式应用 [3] - 坚信AI产品和服务已在不知不觉中改变人们生活的面貌 [3]
Agent、DeepSeek、多模态热点炸场!60+重磅嘉宾共探AI未来,2025全球机器学习技术大会完美收官!
AI科技大本营· 2025-04-21 18:24
以下文章来源于CSDN ,作者CSDN CSDN . 成就一亿技术人 作者 | 《新程序员》编辑部 出品 | CSDN(ID:CSDNnews) 在万物向 "智 " 生长的 2025 年,AI 领域的热潮持续升温,正引领着技术革新与产业探索的新浪潮。 了新的破解思路?围绕这些关键问题,欢迎回看大会首日视频,看众多技术大咖如何从理论、算法到实际应用层面进行了深度剖析 ,以此 了解 AI 技术 的更多最新进展: 大模型技术创新驱动的 AI 生态和应用演进 李建忠 CSDN 高级副总裁、 Boolan 首席技术专家 4 月 18-19 日,由 CSDN 联合高端 IT 咨询与教育平台 Boolan 举办的 2025 全球机器学习技术大会(ML-Summit 2025),在上海虹桥西郊庄园丽笙 大酒店隆重拉开帷幕。本次大会围绕 AI 最前沿的发展趋势与落地实践,聚焦大语言模型技术演进、AI 智能体、具身智能、DeepSeek 技术解析与行业 实践等 12 大专题,邀请了超 60 位来自全球顶尖科技企业与学术机构的重磅嘉宾齐聚一堂,全面呈现 AI 领域的技术风向与应用前沿。 在生成式 AI 重构技术边界的浪潮下,产业实 ...
类脑智能是AI新突破关键,上海全链条布局产业新赛道
第一财经· 2025-04-19 13:49
类脑智能技术发展 - 中科院院士蒲慕明提出借鉴大脑结构和计算特点突破人工智能在算力、数据和参数规模的限制,实现更高级别的通用人工智能[1][5] - 类脑智能技术研究涵盖类脑人工网络、类脑机器学习、类脑芯片等领域,随着算力、芯片、算法三要素突破及多学科交叉融合,类脑智能迎来新发展契机[1] - 当前人工智能性能提升面临算力和数据瓶颈,类脑智能通过优化新算法与人工网络模型,借鉴人脑神经网络结构,可突破现有限制[5] 类脑智能战略意义 - 科技部五司副司长董琪表示类脑智能是人工智能前沿领域,有望成为驱动数字经济、智慧社会发展的战略新引擎[4] - 蒲慕明强调加快布局类脑智能技术对我国实现人工智能技术新突破具有重要战略意义[5] - 上海市科委副主任屈炜指出上海正全链条布局类脑智能产业新赛道,推动技术从实验室走向实用化[8] 类脑智能产业生态建设 - 类脑智能产业创新发展联盟成立,由中国信息通信研究院牵头,成员包括灵汐科技、时识科技、中电海康、华为、长安汽车等企业[7] - 联盟将制定类脑智能标准体系、构建数据集,探索智能网联汽车、具身智能机器人、智能医疗终端等应用场景[7] - 类脑智能未来产业基金矩阵由10家投资机构联合发起,聚焦类脑智能产业新赛道,支持前沿技术研究与应用[7] 类脑智能应用前景 - 蒲慕明认为未来5-10年类脑智能最重要的应用场景之一是具有高等智能的人形机器人,需将大语言模型与物理系统结合[6] - 上海通过深化基础理论研究、加快核心技术攻关,在类脑计算芯片、类脑视觉系统研发等领域取得重要成果[7] - 上海将建设类脑智能概念验证中心、应用示范场景和未来产业集聚区,加速产业链协同发展[8] 类脑智能跨领域融合 - 蒲慕明指出类脑智能需实现脑科学与人工智能融合,但目前两领域交叉程度不足[6] - 脑机接口目前与类脑智能无关,人工智能、类脑研究、脑机接口是三个相对独立领域[6] - 未来技术发展可能促进三个领域的融合[6]
解读国内首个DeepResearch AI Agent 智谱沉思模型
2025-04-15 22:30
纪要涉及的行业或公司 * 行业:人工智能(AI)大模型与AI Agent应用行业[1] * 公司:智谱AI(发布AutoGLM“陈思版”产品)[1] 核心观点与论据 * **产品定位与架构**:AutoGLM“陈思版”是国内首个集深度研究能力和操作能力于一体的AI Agent[1] 其整体架构是一个结合了思维链(快思考)和test-time-scaling技术(慢思考)的链式模型 专门为完成AI Agent任务进行端到端特殊训练和优化的模型[2] * **核心竞品对比**: * **与Manus的区别**: * **运行环境**:智谱产品主要在用户本地客户端运行 调用客户端浏览器能力进行数据抓取 Manus则在云端自建虚拟环境运行 部分通过后端代码直接抓取数据[3] * **数据安全与成本**:本地运行可让用户看到完整的数据抓取与分析过程 缓解数据安全担忧 同时减少公司在云端的算力投入和容器环境配置成本[4] * **模型基础**:智谱使用自主研发、为任务专门优化的Agent模型 Manus更多使用其他家研发好的大模型[5] * **与DeepSeek的区别**:DeepSeek的链式模型已完全免费 智谱错过了最佳收费时间点 目前竞争策略是将成本做到最低[10] * **产品能力与限制**: * **任务处理**:在浏览器任务上 由于通常只控制一个浏览器 因此只能有一个工作进程 无法并行处理多窗口对话或同时使用多个应用程序 但在涉及多个技能人的非纯浏览器任务上可以协同工作[6][7] * **浏览器兼容性**:目前重点适配Chrome浏览器 因其功能和稳定性更高 兼容其他浏览器(如IE、Safari)技术上不特别困难[8] * **信息源与访问**:对于Google Scholar等海外网站无法访问的问题 需要用户自行解决(如使用网络工具) 对于需要账号登录的网站 产品支持在客户端操作中引导用户输入密码 登录信息会记录在本地保留一段时间[12] * **技术细节**: * **思考时间与消耗**:任务处理时间较长 消耗的token数量波动大 简单任务可能只需几百token 复杂任务可能消耗数万甚至数十万token[8] * **算力投入**:公司为X400(根据上下文推断,可能指代该产品)投入了约2000P的算力 若以NVIDIA 4090显卡估算 大约对应两三千张卡[9] 其他重要内容 * **商业模式**:产品目前免费开放 主要因竞品(DeepSeek)免费和Manus已抢占市场风头 未来商业模式(如会员制)将视竞争情况而定[10] * **发展历程**:公司早在2023年1月就在研发类似Manus的Agent 但未引起市场关注[10] * **未来计划**:计划将“陈思版”与“反思版”模型合并 形成与Manus类似的产品[11]
元戎启行周光:智驾最终拼的是 AI 技术,不只是规模丨具身智能对话#13
晚点Auto· 2025-04-14 21:47
自动驾驶技术路线 - 行业存在多种技术路线实现无人驾驶,包括基于高精地图的RoboTaxi路线(Waymo、小马智行)和渐进式路线(特斯拉)[5] - 元戎启行提出新解法RoadAGI,借鉴大语言模型发展路径:从弱专家模型→通才→强专家模型,认为智驾系统也需要经历类似过程[5][6][8] - RoadAGI战略旨在打造移动能力的"通才"系统,可应用于汽车、摩托车、配送小车等多种移动终端,最终实现L5级自动驾驶[5][6][9] 技术范式迭代 - 智驾技术范式从Transformer到BEV再到端到端,主要由特斯拉引领,但特斯拉不再公布细节后行业出现技术路线分歧[6] - 元戎启行是行业少数坚持技术判断的公司,最早提出前融合、无高精地图、端到端等技术,目前是国内三家量产上车城市NOA的供应商之一[6] - 公司正在推进VLA模型(视觉-语言-动作模型),认为技术断代领先能带来商业机会[11] 行业竞争格局 - 2024年一季度特斯拉FSD进入中国市场,虽然不完全适应中国路况但基础能力强大[6][15] - 比亚迪、吉利等车企将智驾门槛拉低到10万元以下车型,打响普及战[6] - 有能力自研智驾的车企越来越少,多数选择与供应商合作,供应商经历洗牌后仅剩头部玩家[6] 公司发展策略 - 元戎启行当前量产车型达4万台,预计2024年将达20万台,认为10万与100万的数量级差距是1倍而非10倍[13] - 强调AI能力比规模更重要,认为L5五年内实现的概率不低,大模型方法将改变行业[15][16] - 工程能力与技术能力同等重要,通过首个量产项目建立了体系能力,现在可同时服务多个客户[11][12] 产品与技术理念 - RoadBrain是RoadAGI战略下的产品,作为移动能力的"通才"阶段,目标是实现不同终端1000公里接管一次,最终在汽车上实现10万公里接管一次[6][9] - 认为单一场景数据有限,需要自行车、摩托车等多终端数据丰富模型知识[9] - 下一代车端方案将是统一的数据驱动大模型,不同于传统端到端,符合大语言模型工艺但参数量适中[9] 行业趋势判断 - 特斯拉FSD V13在美国已达到"无接管意愿"水平,与Waymo差距缩小[15] - 华为是"点燃中国智驾之火"的公司,其无图方案的成功促使车企改变防守心态[15] - 智驾终局将趋于同质化,差异仅体现在驾驶风格偏好,但当前距离真正好用还有差距[15]
Circle to Search, XOXO:「圈定即搜」功能交互解析与入门指南
36氪· 2025-04-14 15:52
Circle to Search功能概述 - Circle to Search是Google联合三星在Galaxy S24系列和Pixel 8系列首发的屏幕交互功能 通过手势圈选实现文字 图片的即时搜索与操作 所有识别处理均在本地完成[2][3] - 功能支持一键翻译 听歌识曲 链接跳转等工具 搜索结果直接显示在屏幕下半部分 用户可复制文字或分享图片[3] - 该功能于2023年1月启动开发 团队仅用三页纸说明便快速完成原型 最终选择"圈选"而非"点击"作为核心交互方式 因其更符合用户直觉[8][9] 技术实现与竞争优势 - 采用Android Ink API实现墨迹追踪 通过降低流动感优化延迟 使圈选操作跟手性达到业界领先水平[25] - 相比vivo HyperOS等模仿方案 Circle to Search无需等待分区完成即可记录手势 响应速度提升50%以上 且支持轻点 涂抹等多种选择方式[10][13][15] - 背靠Google搜索生态 能即时返回时效性结果 而竞品依赖大语言模型多模态识别 平均延迟达3-4秒且准确率较低[17][18][20] 应用场景与用户价值 - 覆盖音乐识别 跨平台听歌 外语学习 数学计算等高频场景 例如圈选歌名可直接跳转Spotify等平台 识别算式即时显示结果[48][49] - 与Pixel设备深度整合 支持通过Screenshots应用本地保存圈选内容 并利用Gemini Nano 2模型实现后续检索[29][52] - 在社交 导航场景表现突出 如圈选餐厅名称自动关联Google Maps信息 解决食べログ等应用内嵌地图体验不佳的痛点[51] 市场覆盖与行业影响 - 截至2025年3月 已适配Google Pixel 三星Galaxy 小米 vivo等12个品牌国际版设备 形成安卓生态标准功能[29][31] - 被评价为"智能手机AI最有用的瞬间" 促使国际版定制UI放弃自研方案转而接入Google服务 奠定交互新范式[15][58] - 开发过程中坚持Material Design理念 动画设计克制高效 与行业普遍追求炫酷特效的趋势形成鲜明对比[23][27]
人类一生所学不过4GB,加州理工顶刊新研究引热议
量子位· 2025-04-13 12:08
人类信息处理能力研究 - 人类信息处理速度仅为每秒10bit,感官系统数据收集速率达每秒10亿bit,二者比值高达1亿倍[2][12] - 24小时不间断学习且不遗忘的情况下,100年知识储量上限仅为4GB,相当于70亿参数大模型存储量的1/350[1][3][16] - 中枢神经系统采用串行处理方式导致信息传输速率受限,表现为"心理不应期"效应[21][22] 信息处理速率测算方法 - 通过打字(10bits/s)、演讲(13bits/s)、盲拧魔方(11.8bits/s)等行为测算人类信息处理速度[13] - 视觉系统单视锥细胞传输速率达270bits/s,双眼总传输速率高达3.2Gbps/s[18] - 综合多种行为测算结果显示人类信息处理速度集中在5-50bits/s范围[14][15] 进化视角的认知限制 - 早期神经系统为检测气味浓度梯度演化出串行处理架构[23] - 进化过程中形成的认知架构限制了多任务处理能力[24] - 现有处理速度已满足生存需求,庞大神经元网络用于任务切换和信息整合[25] 技术应用启示 - 马斯克脑机接口面临10bits/s基础限制,电话通信已匹配人类语言传输需求[6][33] - 算力提升将推动机器在各类任务中超越人类表现[4][27] - 脑机接口价值在于信息编解码而非突破速率限制[34] 学术争议与讨论 - 研究引发对打字员与听者比特率等效性的质疑[46] - 每秒10bit是否真的"慢"存在不同解读视角[47] - 研究团队包含认知神经科学领域资深学者Markus Meister及其博士生Jieyu Zheng[37]