大语言模型
搜索文档
我国生成式人工智能用户规模超5亿;苹果公司CEO库克:Apple Intelligence正在努力进入中国市场丨AIGC日报
创业邦· 2025-10-19 09:05
AI音乐生成行业动态 - AI音乐生成公司Suno正洽谈以超过20亿美元估值融资逾1亿美元,该估值较此前翻了四倍 [2] - 公司年经常性收入已超过1亿美元 [2] - 公司近期正与主流唱片公司协商解决法律纠纷 [2] 中国生成式AI市场概况 - 截至2025年6月,中国生成式人工智能用户规模达5.15亿人,较2024年12月增长2.66亿人 [2] - 用户规模半年翻番,普及率达到36.5% [2] 跨国科技公司中国市场进展 - 苹果公司CEO库克透露,Apple Intelligence(苹果智能)目前正在努力进入中国市场 [2] - 库克表示人工智能可以做了不起的事情,改变了人们的生活,包括救人性命 [2] AI创业与投融资趋势 - 智谱AI前COO张帆已创业,新项目专注于特定任务大语言模型的研发,推动AI技术在企业场景的深度落地 [2] - 创业公司已完成天使轮融资,投资方为蓝驰创投 [2] - 天使轮融资估值未出现过多溢价,股东光源创业者基金在项目推进中表现积极 [2]
明日开课!自动驾驶VLA三大体系学习路线图:算法+实践
自动驾驶之心· 2025-10-19 00:03
自动驾驶VLA行业趋势 - 端到端技术之后,学术界和工业界聚焦方向是VLA(Vision-Language-Action),其提供类人思考能力,通过思维链形式展现车辆决策过程,从而提升自动驾驶可靠性和安全性[1] - 自动驾驶VLA目前可分为模块化VLA、一体化VLA和推理增强VLA三个子领域[1] - 传统BEV感知、车道线、Occupancy等方向相对成熟,行业关注度逐渐下降,自动驾驶VLA成为各家企业急需攻克方案[4] - 主流自动驾驶企业,包括智驾方案供应商和车企,都在发力自动驾驶VLA自研[4] 课程核心内容 - 课程涵盖自动驾驶VLA三大子领域前沿算法细致讲解,配备两个实战及一个课程大作业[6] - 核心内容包括视觉感知、大语言模型、Action建模、大模型部署、数据集制作等[6] - 最前沿算法包括CoT(思维链)、MoE(混合专家模型)、RAG(检索增强生成)、强化学习等[6] - 第一章概述VLA算法概念及发展历史,介绍开源BenchMark和常见评测指标[12][13] - 第二章讲解VLA算法基础,包括Vision、Language、Action三个模块基础知识,以及大模型与自动驾驶VLA结合方式[14] - 第三章讲解VLM作为自动驾驶解释器的经典和最新算法,如DriveGPT4、TS-VLM、DynRsl-VLM、SENNA[15] - 第四章聚焦模块化和一体化VLA,讲解语言模型从被动场景描述演变为主动规划组件的过程,配套ReCogDrive实战代码[16] - 第五章聚焦推理增强VLA,讲解长思维链推理、记忆和交互技术,配套Impromptu VLA实战代码[17][19] - 第六章为大作业,基于ms-swift框架进行网络构建、自定义数据集和模型加载,开启训练任务并进行微调[20] 行业技术发展 - 模块化VLA强调多阶段pipeline(感知→语言→规划→控制),语言模型为规划决策提供信息[16] - 一体化VLA直接连接动作解码器,实现感知→控制端到端映射,通过单次前向传播将传感器输入映射为控制动作[16] - 推理增强VLA将VLM/LLM置于控制中心,新增推理模块(如Chain-of-Thought、记忆体、工具调用),同步输出控制信号和自然语言解释[17] - 课程涉及多家机构最新研究成果,包括华科&小米ICCV2025中稿的ORION、慕尼黑工大OpenDriveVLA、上海交通大学DriveMoE、博世和清华AIR的DiffVLA、UC Berkeley和Waymo的S4-Driver等[17][18][23]
为什么说AI智能体最大的价值,是悄悄嵌入工作流里?
36氪· 2025-10-18 08:06
AI智能体行业现状与核心认知 - AI智能体领域正经历快速迭代,新模型、新技术和新架构层出不穷,但行业多数从业者对进展仍不敏感 [1] - 行业将AI智能体定义为大语言模型(LLM)与推理、工具、记忆的结合体,可简化为LLM加工具和记忆 [1] - AI智能体并非独立产品,而是业务流程的催化剂和赋能者,其真正价值在于嵌入工作流程后在后台运行 [1][12] AI智能体开发框架与技术实践 - 开发框架(如crewai、dspy、langgraph、autogen等)并非关键限制因素,应用的核心流程更为重要 [3] - DSPy框架被视为未来发展方向,其签名、适配器、训练集、优化器等概念设计自然,编译体验良好 [10] - AI智能体开发本质更接近软件工程而非人工智能/机器学习,需要扎实的软件工程基础 [4] AI智能体性能与能力边界 - 智能体的能力上限高度依赖所提供上下文的质量,包括提示、工具、记忆及环境 [5] - 结构良好的上下文价值可能超过使用更大的语言模型 [5] - 缺乏工具的独立智能体实用性有限,赋予其执行操作能力(如调用API、访问数据库)后价值显著提升 [6][7] AI智能体设计原则与评估体系 - 最高效的智能体设计遵循简洁原则:清晰提示、少量定义明确的工具、单一职责,复杂性易导致系统脆弱 [8] - 评估体系作用被低估,建立测试和真实世界反馈循环是区分玩具项目与可靠生产系统的关键 [9] - 智能体应为精确场景而生并出色完成任务,而非追求通用性 [8] 行业应用与商业化前景 - AI智能体发展仍处早期阶段,正从研究玩物转向基础设施级系统 [12] - 未来每个产品背后都可能运行智能体,负责协调任务、提供个性化体验及处理复杂问题 [12] - 技术仅是成功因素之一,鼓励实验的文化、迭代速度及清晰愿景更为重要 [11]
理想自动驾驶团队GitHuB仓库与论文合集
理想TOP2· 2025-10-17 21:44
自动驾驶技术战略布局 - 公司自动驾驶团队致力于通过前沿技术引领交通运输领域变革,核心使命是提升出行安全性、效率和可持续性 [1] - 技术布局涵盖自动驾驶大语言模型、世界模型、3D几何场景理解以及端到端神经网络模型等多个前沿领域 [1] 大语言模型 (LLM) 应用 - 利用大语言模型解读复杂驾驶场景,旨在实现更智能、响应更迅速的自动驾驶车辆 [2] 自动驾驶模拟与测试 - 世界模型项目专注于模拟真实驾驶环境,用于在各种条件下测试和改进自动驾驶算法 [3] - DrivingSphere框架结合4D世界建模和视频生成技术,构建生成式闭环仿真系统,可生成无限大的城市规模静态背景 [8] - DriveDreamer4D使用视频生成模型作为数据机器,生成车辆执行复杂新轨迹时的视频数据,以补充真实数据不足 [8] 3D场景感知与重建 - 3D几何场景项目专注于创建精细城市环境3D地图,以增强车辆感知系统,实现更优导航和决策 [4] - StreetGaussians方法高效创建逼真、动态的城市街道模型 [7] - 3DRealCar是真实世界3D汽车数据集,包含2500辆经过3D扫描仪的汽车,每辆车平均有200个密集的RGB-D视图 [8] - Hierarchy UGP使用统一高斯基元的四维空间表示方法构建分层树状结构,用于大规模动态城市场景的高保真三维重建 [8] 端到端神经网络模型 - 研发全面的端到端神经网络模型,简化从感知到执行的整个自动驾驶系统处理流程 [5] - STR2运动规划器使用视觉Transformer作为编码器,采用单阶段自监督学习方式训练,旨在提升泛化能力 [8] - GaussianAD使用稀疏而全面的3D高斯函数表示场景信息,解决传统方法在信息完整性和计算效率间的权衡问题 [8] 视频生成与场景合成 - DiVE模型基于Diffusion Transformer架构,生成与鸟瞰图布局精确匹配的时间、多视角一致视频 [8] - GeoDrive利用3D几何信息生成高度逼真、时空一致的驾驶场景视频,实现实时场景编辑 [10] - StreetCrafter是专为街景合成设计的视频扩散模型,利用激光雷达数据实现摄像机位置的精确控制 [8] 视觉语言模型优化 - LightVLA是自适应视觉token pruning框架,同时提升机器人VLA模型任务成功率和运行效率 [10] 数据集与算法创新 - TOP3Cap是用自然语言描述自动驾驶街景的数据集,包含850个户外场景,超过64300个物体,230万条文字描述 [7] - ReconDreamer采用渐进式策略,将世界模型知识融合到场景重建中 [8] - DriveVLM采用端到端与视觉语言模型结合的双系统架构 [7]
新模型组团出道,多项机器人技术开源,近期AI新鲜事还有这些……
红杉汇· 2025-10-17 08:04
AI科研发现自动化 - 西湖大学开发的AI科学家系统DeepScientist在AI文本检测任务中,仅用两周时间就取得了相当于人类科学家三年的研究进展,并在多个领域刷新纪录 [6] - 该系统实现了除目标设定外无需人工干预的科研闭环,成为首个被大规模实证研究证明能在前沿科学任务上渐进式超越人类最先进水平的AI系统 [6] OpenAI开发者大会与平台生态 - OpenAI开发者大会现场有约1500名开发者参与,线上观众突破数万,平台已聚集400万开发者,ChatGPT周活跃用户达8亿,API每分钟处理近60亿token [8] - 大会发布多款开发工具,包括Apps SDK、全能工具集AgentKit和正式版Codex,同时开放Sora 2的API,其生成内容在物理规律呈现和提示一致性上显著提升,并新增同步对话、音效及现实元素注入功能 [8] 多模态图像生成模型竞争 - 腾讯的混元图像3.0在LMArena榜单登顶,得分1167,超越Google Gemini 2.5 Flash Image Preview(1151分)和字节跳动Seedream-4-2k(1144分)等26个全球模型 [11][12] - 该模型是业界首个开源工业级原生多模态生图模型,参数量达800亿,拥有64个专家网络,具备世界知识推理和极致美学表现等核心能力 [12] 机器人关键技术开源与生态 - 英伟达在机器人学习大会上开源物理引擎Newton、推理模型Isaac GR00T N1.6和世界模型Cosmos,旨在解决机器人研发中的仿真、推理和训练难题 [14] - 这一系列工具的开源有望显著缩短机器人开发周期,其中世界模型Cosmos通过文本、图像和视频提示生成多样化训练数据,减少对昂贵真实世界数据采集的依赖 [14][15] 大语言模型性能升级 - 智谱GLM-4.6总参数量达355B,激活参数为32B,上下文窗口从128K扩展至200K token,token效率提升超过30%,平均token消耗比GLM-4.5节省30%以上 [17] - 模型代码能力较GLM-4.5提升27%,在公开基准与真实编程任务中已对齐Claude Sonnet 4,整体性能超过DeepSeek-V3.2-Exp [17] 代码模型能力突破 - Anthropic发布的Claude Sonnet 4.5在权威编程基准SWE-bench Verified上取得82.0%的准确率,超过其前代Opus 4.1(79.4%)、GPT-5(72.8%)和Gemini 2.5 Pro(67.2%) [22] - 模型在复杂多步骤任务中可保持超过30小时的专注执行,正常请求拒绝率从Sonnet 4时的0.15%下降至0.02%,并同步发布了Claude Agent SDK [20][22] 视频模型零样本学习能力 - DeepMind的Veo 3视频模型展现出“无师自通”的零样本学习能力,能够处理一系列未经过专门训练的视觉任务,如边缘检测、物体分割、超分辨率等 [24][27] - 模型展现出对朴素物理规律(如刚体、软体、光的折射)和三维世界的理解能力,并能通过“帧链”能力解决复杂的视觉推理任务,有望发展为视觉基础模型 [27][28]
谷歌开源全栈平台Coral NPU,能让大模型在手表上全天候运行
36氪· 2025-10-16 15:44
文章核心观点 - 谷歌发布名为Coral NPU的全栈开源AI平台,旨在解决边缘AI设备在性能、碎片化和隐私方面的核心挑战,为下一代低功耗、始终在线的边缘AI应用构建基础 [4][5][26] 产品定位与目标 - Coral NPU定位为全栈开源平台,专注于解决低功耗边缘设备和可穿戴设备上应用强大AI技术时面临的性能差距、碎片化成本和用户信任缺失三大挑战 [4] - 该平台目标是在智能手表等设备上实现本地持续运行的AI,让智能直接嵌入用户个人环境,同时最大限度减少电池消耗 [4][5][22] 技术架构与性能 - Coral NPU采用NPU架构,基于符合RISC-V指令集架构的IP模块,专为最低功耗设计,是始终在线环境感知的理想选择 [8] - 基础设计在仅消耗几毫瓦功率的情况下,可提供512 GOPS级别的性能,为边缘设备、耳戴式设备、AR眼镜和智能手表带来强大端侧AI能力 [8] - 架构包含三个组件:一个用于管理数据流的轻量级RISC-V标量核心、一个强大的单指令多数据向量执行单元,以及一个专为加速神经网络运算的矩阵执行单元(仍在开发中) [10][11] 开发者体验与工具链 - Coral NPU提供统一开发者体验,是一个可用C语言编程的目标平台,可与IREE和TFLM等现代编译器无缝集成,支持TensorFlow、JAX和PyTorch等机器学习框架 [15] - 平台包含全面软件工具链,如TFLM编译器、通用的MLIR编译器、C编译器、自定义内核和模拟器,为开发者提供灵活路径以简化机器学习模型编程 [15][17] - 行业标准工具有助于在各种硬件目标上提供一致体验,工具链展示了从模型创建、优化、编译到设备端部署的完整流程 [17][20] 目标应用与合作伙伴 - Coral NPU旨在支持超低功耗、始终在线的边缘AI应用,尤其侧重环境感知系统,潜在用例包括情境感知、音频处理、图像处理和用户交互 [22][25] - 平台通过与Gemma团队合作优化以支持小型Transformer模型,确保加速器架构能够支持下一代边缘生成式AI [24] - 谷歌宣布与Synaptics建立战略芯片合作伙伴关系,其新的Astra SL2610系列AI原生物联网处理器采用了业界首个Coral NPU架构的量产实现 [22][23]
国金证券:AI+电商服务进入提效阶段 关注后续业绩兑现
智通财经网· 2025-10-16 10:40
AI应用发展阶段 - AI应用从早期小范围试水进入规模化价值兑现阶段 [2] - 多模态大模型技术成熟度提升且调用成本大幅下降 例如国内通义千问模型推理成本相较于2023年平均降低80% [2] - AI工具与电商全链路运营深度融合 成为驱动电商及线上服务行业公司业绩增长的重要引擎 [2] 电商与线上服务行业优势 - 电商行业算力需求呈现间歇波动特征 企业可采取公私算力混合方式优化使用成本 [3] - 电商数据中台覆盖用户行为、交易数据、内容数据等12类异构数据源 为AI提供充足燃料并提升模型精度 [3] - 2025年电商行业模型架构呈现通用大模型加垂直精调的混合模式 国内大模型输入价格平均比国外低92.6% 输出价格平均比国外低160.3% [3] AI应用效果与业绩兑现 - AI应用带来收入曲线抬头与成本曲线下降的双向拐点 [4] - 降本端通过AI流程自动化优化人力结构 例如丽人丽妆借助虚拟人直播覆盖40%直播时长且单场GMV峰值达500万元 [4] - 增效增收端潜力巨大 在获客阶段通过生成式AI提升点击率 在用户激活阶段通过3D建模和虚拟试穿增强体验 在变现阶段通过需求预测优化库存 在自传播阶段通过流程自动化降低退换货率 [4] 行业竞争与投资关注点 - AI+跨境电商行业竞争从渠道扩张转向效率竞争 建议关注聚焦技术驱动外贸效率革命的头部平台 [1] - AI+电商代运营行业分化加剧 具备AI技术储备的头部企业优势有望扩大 建议关注全链路AI落地且利润率改善的服务商 [1] - AI+教育/人服通过NLP技术解析岗位需求与简历 结合人才发展预测模型显著提升招聘效率 建议关注政策支持且效率显著提升的细分标的 [1]
即将开课!自动驾驶VLA全栈学习路线图分享~
自动驾驶之心· 2025-10-16 07:33
自动驾驶VLA行业趋势 - 自动驾驶VLA是学术界和工业界在端到端之后聚焦的核心方向,提供了类人思考能力并通过思维链形式展现决策过程,以实现更可靠和安全的自动驾驶[1] - 行业将自动驾驶VLA划分为三个子领域:模块化VLA、一体化VLA和推理增强VLA[1] - 传统的BEV感知、车道线、Occupancy等方向相对成熟,学术界和工业界关注度逐渐下降,自动驾驶VLA成为各家企业急需攻克的方案[4] - 主流自动驾驶企业,包括智驾方案供应商和车企,均在发力自研自动驾驶VLA[4] 自动驾驶VLA技术核心 - 自动驾驶VLA涉及视觉感知、大语言模型、Action建模、大模型部署、数据集制作等核心内容[6] - 最前沿算法包括CoT、MoE、RAG、强化学习[6] - 模块化VLA强调多阶段pipeline(感知→语言→规划→控制),语言模型为规划决策提供信息[16] - 一体化VLA直接连接动作解码器,实现感知→控制的端到端映射,通过单次前向传播将传感器输入映射为控制动作[16] - 推理增强VLA新增推理模块(如Chain-of-Thought、记忆体、工具调用),同步输出控制信号和自然语言解释,支持长时序规划和因果解释[17] 课程内容与结构 - 课程第一章介绍VLA算法概念、发展历史、开源BenchMark和常见评测指标[12][13] - 第二章讲解VLA算法基础,涵盖Vision、Language、Action三个模块基础知识及大模型结合,并以Qwen 2.5VL-72为例讲解开源大模型部署[14] - 第三章讲解VLM作为自动驾驶解释器的经典及最新算法,包括DriveGPT4、TS-VLM、DynRsl-VLM、SENNA,重点分析算法动机、网络结构和核心[15] - 第四章聚焦模块化与一体化VLA,配套实战代码学习选取华科和小米最新提出的ReCogDrive,涵盖预训练、模仿学习、强化学习GRPO、扩散模型轨迹输出等技术栈[16] - 第五章聚焦推理增强VLA,讲解ORION、OpenDriveVLA、DriveMoE、DiffVLA、S4-Driver、FutureSightDrive、AutoVLA、Drive-R1等算法,并配套清华AIR和博世提出的Impromptu VLA实战代码[17][18][19][23] - 第六章设置大作业,要求学员基于ms-swift框架自定义数据集和加载模型,进行训练任务微调,并提供V-L-A各部分代码解读[20] 行业人才培养 - 课程由清华大学教研团队联合开展,旨在推动自动驾驶VLA在学术界和工业界的发展[6][22] - 讲师团队包括在ICCV/IROS/EMNLP/Nature Communications等顶级会议发表论文的清华大学硕士生、QS30高校博士在读研究员,具备丰富的自动驾驶、大模型研发和实战经验[8][9] - 学员需自备GPU,推荐算力在4090及以上,并具备自动驾驶领域基础、transformer大模型、强化学习、BEV感知等技术概念,以及概率论、线性代数、Python和PyTorch基础[24] - 课程为国内首个自动驾驶VLA进阶实战教程,预计两个半月结课,采用离线视频教学配合VIP群内答疑及三次线上答疑的模式[22][23]
看好中国经济发展“MIT”优势
中国证券报· 2025-10-16 04:15
核心观点 - 坚定看多中国资本市场,认为中国经济发展具备制造业、创新、人才三大优势,即“MIT”优势 [1] 制造业优势 - 中国在过去三十年已建立起强大的制造业生态,包括工厂、机器设备及港口、机场、公路、电厂等完善的基础设施 [2] - 在未来十年至三十年内,没有任何国家能够复制如此庞大的生态体系 [2] - 随着中国企业在制造业中开始应用人工智能,这种优势在未来只会更加显著 [2] 创新优势 - 中国在5G、即将到来的6G以及无人机、锂电池、高速铁路、电动车、北斗导航系统等领域均居世界领先地位 [2] - 美国顶级科技公司研发中心中,约有三分之一的工程师是华人,表明具备创新能力 [2] - 以DeepSeek为例,其在大语言模型领域取得了突破性创新进展,将激励新一代创新者 [2] 人才优势 - 人才包括企业家、工程师和产业工人,他们积极进取、充满斗志、富有创造力 [3] - 以成都一家生物科技公司为例,其投资先进设备,创始人拥有美国教育背景与工作经验,体现了高素质人才 [3] - 对中国信心的重要来源之一,正是来自对企业的走访、与高层团队或创始人的深入交流 [3] 宏观经济与市场前景 - 中国的GDP增速快于德国、英国、日本和美国等主要经济体,而且这一趋势将持续多年 [2] - 虽然很难预测短期市场走势,但将时间拉长,判断正确率能达到七成左右,足以作为参考基础 [2] - 坚信中国发展的辉煌岁月还在前方,中国资本市场的未来充满光明 [3]
蚂蚁开源万亿参数思考模型 Ring-1T,综合能力逼近 GPT-5、数学能力对标 IMO 银牌
AI前线· 2025-10-15 15:45
模型发布与核心能力 - 蚂蚁集团正式推出并开源万亿参数思考模型Ring-1T [2] - 模型在IMO2025赛题解题中达到银牌水平 一次解出第1、3、4、5题 [2] - 在人类偏好对齐测试Arena-Hard V2中取得81.59%的成功率 位居开源模型榜首 [3] - 在医疗问答HealthBench测评中以最高分取得开源领域最佳成绩 [3] 技术创新与工程实现 - 采用自研"棒冰(icepop)"算法解决万亿参数模型训推精度差异难题 [5] - 自研高性能强化学习系统ASystem 实现单机显存碎片秒级回收和权重零冗余交换 [6] - 模型基于Ling 2.0架构 采用稀疏MoE、1/32专家激活比、FP8混合精度等技术 [8] - 通过LongCoT-SFT + RLVR + RLHF多阶段后训练提升复杂推理和通用能力 [8] 产品矩阵与战略发展 - 蚂蚁百灵大模型已发布18款模型 形成从160亿到1万亿参数的产品矩阵 [9] - 拥有两款万亿参数模型:通用大语言模型Ling-1T和思考模型Ring-1T [9] - 随着两款万亿模型发布 百灵大模型正式步入2.0阶段 [9]