大语言模型(LLMs)
搜索文档
壁仞科技(06082):IPO申购指南
国元国际· 2025-12-22 19:24
投资评级与核心观点 - 报告对壁仞科技(6082.HK)的IPO申购建议为“谨慎申购” [1] - 报告核心观点:壁仞科技所处的GPGPU(通用图形处理器)市场具备广阔的长期发展前景,且当前处于相对快速发展期[2] 但公司港股发行估值按中间价相当于2024年117倍市销率(PS),考虑到其盈利时间表尚不完全明朗,因此建议谨慎申购[2] 公司业务与市场地位 - 壁仞科技开发GPGPU芯片及基于GPGPU的智能计算解决方案,为人工智能提供基础算力[2] - 公司通过整合自主研发的硬件及专有的BIRENSUPA软件平台,其解决方案支持从云端到边缘的广泛应用中AI模型的训练及推理[2] - 公司的解决方案在大语言模型的预训练、后训练及推理方面拥有强大性能与高效能,具备高技术壁垒,使其在国内竞争中具有关键优势[2] - 根据灼识咨询资料,按在中国市场产生的收入计,预期中国智能计算芯片市场规模在2025年达到504亿美元,公司预期取得约0.2%的市场份额[2] 行业市场前景 - 以收入计,全球智能计算芯片市场从2020年的66亿美元快速增长至2024年的1,190亿美元,复合年增长率(CAGR)为106.0%[2] - 预计未来五年市场将保持快速增长,并于2029年达到5,857亿美元,2024年至2029年的CAGR为37.5%[2] - 市场增长将受到短期内对AI计算基础设施(如AI数据中心)投资激增的推动,以及长期内一系列基于大语言模型的AI应用蓬勃发展并持续消耗智能算力的驱动[2] 公司财务表现 - 2022年至2024年,公司收入分别为人民币0.5百万元、62.03百万元及336.8百万元[2] - 同期,公司净亏损分别为人民币-1,474.31百万元、-1,743.95百万元和-1,538.1百万元[2] 估值与可比公司 - 壁仞科技港股发行估值按招股中间价计算,相当于2024年117倍市销率(PS)[2] - 报告列举了行业相关上市公司估值作为参考,包括中芯国际(2024年PS为8.35倍)、华虹半导体(PS 7.56倍)、天岳先进(PS 14.70倍)、赛晶科技(PS 1.84倍)、C沐曦-U(PS 386.30倍)及摩尔线程-U(PS 716.03倍)[4] 招股详情 - 上市日期:2026年1月2日(星期五)[1] - 招股价格区间:17至19.6港元/股[1] - 集资额:按18.3港元/股中间价计算,约为43.5066亿港元[1] - 每手股数:200股,入场费为3,959.54港元[1] - 招股日期:2025年12月22日至2025年12月29日[1] - 招股总数:24,769.28万股(可予调整及视乎超额配售权行使情况而定)[1] - 其中,国际配售约占95%(23,530.28万股),公开发售约占5%(1,238.48万股)[1] - 保荐人:中金公司、平安证券(香港)、中银国际[1]
壁仞科技IPO,募资44亿
半导体芯闻· 2025-12-22 18:17
壁仞科技IPO计划与市场影响 - 中国AI芯片制造商壁仞科技寻求通过香港IPO筹资至多约6.23亿美元(约合44亿人民币),计划发行2.477亿股,每股发行价介于17.00港元至19.60港元之间,最高筹资48.5亿港元(折合6.233亿美元),预计股票将于明年1月2日在香港挂牌交易 [1] - 此次IPO为香港可能出现的又一个由AI公司主导的上市大年奠定了基础,香港IPO市场在经历数年低迷后正迎来复苏,此次成功上市可能会刺激更多中国AI相关公司赴港上市 [1] - 在壁仞科技公布IPO计划前,同属中国GPU领域“四小龙”的摩尔线程和沐曦股份已在上海成功上市,其中摩尔线程股价在首个交易日飙升425%,沐曦股份股价则飙升近七倍 [2] 行业背景与市场趋势 - 中国AI初创公司已加快上市步伐,以利用资本市场融资,中国政府已将科技自立自强作为下一个五年规划的重中之重,国内投资者对AI相关领域的投资热情依然高涨 [2] - 香港今年有望重夺全球IPO桂冠,2025年1-11月通过IPO筹集的资金总额达到2,594亿港元,是上年同期的三倍多,毕马威中国预计2026年香港将迎来又一个上市大年,AI相关的IPO料将加速 [2] - 近期,中国生成式AI初创公司MiniMax Group已通过香港交易所上市聆讯并提交文件,大语言模型开发商智谱AI也在加紧赴港IPO步伐 [1][2] 公司业务与技术 - 公司开发通用图形处理器(GPGPU)芯片及基于GPGPU的智能计算解决方案,为人工智能提供所需的基础算力,其解决方案支持从云端到边缘的广泛应用中AI模型的训练及推理 [3] - 公司的技术在大语言模型的预训练、后训练及推理方面拥有强大性能与高效能,具有高技术壁垒,是国内竞争中的关键优势,其技术是支撑AI发展、推动通用人工智能进步的重要基础设施 [3] - 为应对AI快速发展带来的计算需求,公司自主研发了智能计算整体解决方案,包含基于GPGPU架构与芯片的硬件系统以及BIRENSUPA计算软件平台,该产品可以大规模智能计算集群的形式交付 [4] 财务数据与募资用途 - 公司的智能计算解决方案于2023年开始产生收入,截至2024年12月31日止年度及截至2025年6月30日止六个月,该产品分别有14名及12名客户,分别贡献收入人民币3.368亿元及5890万元 [5] - 假设发售价为每股18.30港元,全球发售所得款项净额约43.506亿港元,其中约85.0%将用于日后研发公司的智能计算解决方案,约5.0%将用于该解决方案的商业化,约10.0%将用作营运资金及一般公司用途 [5] 基石投资者 - 公司已与基石投资者订立基石投资协议,基石投资者同意按发售价认购总金额3.725亿美元可购买的发售股份 [6] - 基石投资者包括启明创投、南方基金、平安人寿保险、泰康人寿保险有限责任公司、国泰君安证券投资(香港)有限公司、神州数码(香港)有限公司等多家知名投资机构 [6]
大模型正沦为“免费基建”,真正Alpha机会在应用层?
美股IPO· 2025-11-24 15:45
文章核心观点 - 大语言模型正迅速商品化并趋于免费 其本身并非最终的价值创造者 [1][4] - AI领域的投资重心已从基础设施层转移至应用层 真正的长期价值在于应用生态 [1][3] - 未来2-3年的最大投资机遇在于利用AI技术颠覆传统行业并创造巨大效率提升的创新应用 [1][6] AI基础设施层现状与前景 - 当前多家大型语言模型开发商陷入同质化功能竞争 被比喻为同时创造10个谷歌 [5] - 模型开发商扮演类似宽带运营商的角色 提供基础工具但非价值链中最丰厚的利润环节 [5] - 英伟达高达5万亿美元的估值被类比1999年的思科 被认为是反映已发生成就的向后看估值 [6] - 尽管未来几年美国将投入5000亿美元建设数据中心 但这轮建设被定性为小繁荣 资本和关注度已经越位 [7] AI应用层投资机遇 - 最丰厚的利润将流向最懂得使用AI工具创造实际商业价值的应用开发者 [5] - 投资策略倾向于成为利用搜索引擎赚钱的人 而非搜索引擎的开发者 [6] - 全部前瞻性精力用于寻找未来2-3年的机会 即能够将AI能力与特定行业深度结合的初创企业 [6] - 真正的赚钱机会在于宽带之上建立业务的公司 而非宽带运营商本身 [5]
顾客期待共情,企业该如何满足?
36氪· 2025-11-20 09:12
共情在商业环境中的价值与消费者需求 - 共情包含三个要素:分享他人经历、尝试理解他人眼中的世界以及关心他人的福祉 [1] - 富有共情力的领导者能够打造出员工敬业度更高、忠诚度更强的团队 员工在这样的团队中感觉更良好且工作表现更出色 [1] - 大多数顾客希望从与之打交道的公司感受到共情 但大多数公司却未能做到 [1] 消费者对共情的重视程度与市场现状 - 79%的受访者表示品牌在互动中展现共情的能力是他们做出选择时的考虑因素之一 其优先级高于在线评论(73%)和亲朋好友的推荐(64%) [2] - 61%的受访者表示愿意为展现出共情的品牌支付更高费用 [2] - 78%的受访者认为公司并未真正关心客户 超过40%的人曾因品牌缺乏共情而选择离开 [2] - 超过70%的受访者怀疑聊天机器人是否真的能够共情 超过60%的人担心人工智能正在破坏客户关系 [2] 将共情融入企业架构的方法 - 企业需要将共情从可有可无转变为当务之急 例如克利夫兰诊所通过设立患者体验办公室和首席体验官来推动变革 [4][5] - 采用“旅程地图”方法绘制顾客与品牌的每一个互动点 识别困扰并制定改进策略 [6] - 这些努力必须得到高层的支持 领导者必须认识到共情对于建立稳固客户关系至关重要 [6] 投资提升员工共情技能的成效 - 克利夫兰诊所对4.3万名员工进行“共情训练营”后 患者满意度从行业中游跃升至前10% 员工敬业度和满意度也大幅提升 [7] - 对管理者进行共情培训能够提高他们的净推荐值以及直接下属的敬业度 [7] - 苏黎世保险集团通过为期两天的沉浸式培训项目 让全球近四分之一员工(总计近4.6万小时培训)提升了共情技能 客户净推荐值提高了7个百分点 [8] 人工智能与人性化关怀的融合策略 - 聊天机器人可以让客户体验更高效 但在客户需要做出重大决策或表达强烈情绪时 技术就不够用了 [9] - 明智的公司可以设计客户旅程 让大语言模型识别关键时刻并邀请经过培训的员工接手对话 例如沃达丰的人工智能助手TOBi [9] - 未来十年客户关系的重点将是大规模恢复人性化联系的时代 通过将共情融入运营基因来推动可持续增长 [9]
GitHub 工程师揭底:代码审查常犯这 5 个错,难怪你改到崩溃!网友:差点全中了
程序员的那些事· 2025-11-04 17:09
文章核心观点 - 在AI生成代码日益普及的背景下,代码审查的重要性显著提升,但工程师在审查过程中常犯错误,需改进审查方法以提升效率[5] - 工程师应避免仅审查代码差异、留过多意见、以个人偏好为标准审查,并应明确使用审查状态,多数审查应为“通过”状态[6][8][9][12][13] - 审查原则同样适用于AI生成代码,但对其应更严格,代码审查方式因团队目标优先级不同而异[17] 工程师在代码审查中常犯的错误 - 最大错误是只审查代码差异,而忽略代码在整体系统中的适配性,应结合对代码库其他部分的熟悉度提出更有影响力的意见[6] - 审查意见过多会淹没重要问题,一次好的审查意见不应超过五六条,风格问题应汇总提出而非逐条标注[8] - 使用“我会怎么写”的个人偏好标准进行审查会导致意见堆积,只要代码能正常工作且方案合理就应通过,避免强加个人偏好[9][10][11] - 不想让变更合并时应明确标记“阻塞性审查”,避免使用模糊意见导致合并流程混乱[12] - 多数审查应为“通过”状态,高阻塞率可能反映团队结构性问题或过度“守门”,谷歌指南将“优先通过变更”作为首要原则[13][14] 代码审查的实用原则 - 审查时应思考PR中“没写的代码”是否合理,而不仅看已写部分[18] - 留少量经过深思熟虑的意见,而非堆砌上百条随手意见[18] - 以“代码能正常工作”为标准审查,而非追求与个人写法完全一致[18] - 除非有严重问题,否则应通过审查,对AI生成代码可更严格[17][18] - 代码审查是学习机会,需在进度推进和代码库质量维护间找到平衡[22]
AI赋能资产配置(十九):机构AI+投资的实战创新之路
国信证券· 2025-10-29 14:51
核心观点 - 大语言模型、深度强化学习和图神经网络三大技术正从信息基础、决策机制到系统架构三个层面深度重构资产配置的理论与实践 [1] - AI技术栈已具备现实基础,AI正从辅助工具转向决策中枢,推动资产配置从静态优化迈向动态智能演进 [1] - 头部机构的竞争已升维至构建专有、可信且能驾驭复杂系统的"AI原生"战略,其核心是全链条的专有技术布局 [2] - 对国内资管机构而言,破局之道在于战略重构与组织变革,走差异化、聚焦式的技术落地路径,构建务实高效的"人机协同"体系 [2][3] AI技术范式重塑 大语言模型(LLMs) - LLMs通过深度理解财报、政策等非结构化文本,将海量非结构化文本转化为可量化的Alpha因子,根本上拓展了传统投研的信息边界 [1][11] - 金融专用LLMs的开发遵循预训练加微调的两步范式,以克服通用模型在金融专业术语理解上的不足,业界已出现如BloombergGPT(500亿参数)、FinGPT等专用模型 [12][13] - LLMs的应用场景包括为算法交易系统提供实时情绪信号,以及7×24小时不间断监控全球信息流进行风险管理 [14] - LLMs应用面临数据偏见与模型幻觉、高昂计算成本及可解释性难题等核心挑战 [15][16] 深度强化学习(DRL) - DRL推动资产配置决策框架从静态优化转向动态自适应,其目标是学习在长期内实现最优回报的决策策略,而非一次性精准预测 [1][17] - DRL构建"智能代理"通过与模拟或真实的金融市场交互来学习,其核心是经历"观察-行动-奖励"循环以学会最优策略 [18] - 主流DRL算法包括演员-评论家方法、近端策略优化和深度确定性策略梯度,这些算法非常适合投资组合管理中的连续权重调整任务 [19][20] - DRL的发展瓶颈包括数据依赖与过拟合风险、市场周期适应性难题、高昂计算成本及现实世界约束整合的技术挑战 [21][22] 图神经网络(GNNs) - GNNs通过将金融系统抽象为网络(节点代表金融机构,边代表相互关联),揭示金融网络中的风险传导路径,深化对系统性风险的认知 [1][23] - GNNs通过"消息传递"机制学习节点的自身特征和图的拓扑结构,能够进行风险传播建模和压力测试,识别"大到不能倒"的核心机构 [24][25] - GNNs对监管者的启示在于能够进行动态系统性风险评估和压力测试,对投资者的价值在于帮助构建更有效的投资组合对冲策略 [26] 头部机构实践案例 贝莱德(BlackRock)AlphaAgents - AlphaAgents项目采用多智能体系统模拟人类投资委员会的"协作与辩论"机制,设立基本面分析、情绪分析和估值分析三个专业分工的AI智能体 [30][31] - 系统核心技术由GPT-4o驱动,通过对抗性辩论与共识辩论环节,强制智能体就"买入"或"卖出"展开多轮讨论直至达成一致,以提升结论稳健性 [31][33] - 回测实验显示,在风险中性策略下,多代理投资组合的累计回报和夏普比率显著优于所有单代理组合及市场基准,而在风险规避策略下成功实现了规避下行风险的策略目标 [34][35] - 该系统的战略定位是代表贝莱德人机协作模式的根本性升级,其未来价值在于解决AI信任问题、具备全流程AI赋能潜力及寻找判断性Alpha [39][40] 摩根大通(JPMorgan)"AI原生"战略 - 摩根大通每年在AI上投入20亿美元,其AI研究部门在2024至2025年间共发表140篇出版物,其中8篇发表于AAAI顶级会议,研究布局具有鲜明的学术导向 [42][43][44] - 战略支柱一聚焦构建专有、可信的AI核心技术,通过研究如模型公平性、差分隐私和输出控制等技术,将合规成本中心转化为竞争护城河 [45][46][47][49] - 战略支柱二通过多智能体模拟和强化学习创建金融"风洞实验室",旨在模拟复杂经济系统并训练AI代理做出最优决策,以掌控复杂系统 [53][54][55][56] - 战略支柱三从物理与另类数据中创造信息优势,应用计算机视觉和地理空间分析技术将现实世界数据转化为结构化金融信息,扩展"可知"和"可定价"的边界 [58][59][60][61] 对国内资管机构的启示 - 国内机构需进行战略重构,成立跨部门AI战略委员会,制定符合公司特色的转型路线图,并采取"聚焦突破"策略而非盲目追求"大而全" [63] - 技术落地应采取"三步走"策略,夯实数据基础,基于开源框架务实选择模型,并确立"人机协同"原则,将AI定位为投研团队的"智能副手" [64] - 组织变革需打破部门壁垒,构建融合投资、数据科学和工程的跨职能团队,并采取"外部引进与内部培养"双轨制进行人才建设 [65][66] - 风险管控需建立覆盖模型全生命周期的治理框架,前瞻性布局"可信AI"能力,将合规能力转化为竞争优势 [67]
纯血VLA综述来啦!从VLM到扩散,再到强化学习方案
具身智能之心· 2025-09-30 12:00
视觉-语言-动作模型综述的核心观点 - 该综述系统性地总结了纯视觉-语言-动作方法的研究现状,旨在填补现有综述在纯VLA方法上的空白,并提出清晰的分类体系以阐明该领域的演进轨迹 [4][8] - VLA模型通过提供统一框架将视觉感知、语言理解和可执行动作相结合,标志着通用具身智能发展的重要一步,其目标是克服传统机器人系统在动态和非结构化环境下泛化能力差的问题 [11][14] - 该领域正从单一生成范式向混合架构演进,结合自回归、扩散和强化学习等多种范式的优势,以应对复杂任务,并朝着更高效、安全且易于部署的通用机器人系统发展 [18][56][57] 背景与发展脉络 - VLA模型的发展建立在单模态建模突破的基础上,早期LLM/VLM基础模型如Transformer架构和对比学习方法为多模态整合奠定了方法学基础 [12][13] - 从LLM/VLM到VLA模型的演进体现在将图像、指令和机器人状态统一编码为token,并通过自回归生成动作序列,从而在单一序列建模框架下实现感知-语言-动作的闭环 [14] - VLA模型被视为实现通用具身智能的关键前沿,其通过结合视觉编码器、大语言模型和强化学习的决策能力,展现出弥合“感知-理解-行动”鸿沟的重要潜力 [17] VLA方法学范式 自回归范式 - 自回归模型通过将动作序列视为时间相关过程,在Transformer架构中统一多模态感知和动作生成,支持跨任务泛化的通用代理,代表性工作包括Gato、RT-1/RT-2和PaLM-E [19][21] - 该范式通过引入LLM实现语义规划和分层推理,增强了长时任务和复杂指令的处理能力,但面临误差累积、多模态对齐脆弱以及高计算成本等限制 [24][26][32] - 结构优化方向聚焦于降低计算冗余和提升实时性,采用层级分解、自适应推理和轻量化压缩等策略,以改善部署效率 [30][31] 扩散范式 - 扩散模型将机器人控制重新表述为概率生成问题,通过条件去噪过程支持多样化的动作分布生成,在几何一致性(如SE(3)约束)和视频生成式规划方面展现出优势 [33][37] - 多模态架构融合趋势将Transformer与扩散模型结合,实现异质模态的统一表征,并引入显式推理模块和领域专用设计(如力觉感知)以提升性能 [38][39] - 应用优化方向通过轻量化设计(如TinyVLA)、认知启发式架构和运行时鲁棒性机制,推动模型从实验室原型向真实世界部署过渡 [40][42][44] 强化学习范式 - 强化学习微调策略通过视觉和语言信号生成可迁移的奖励代理,结合离线行为克隆和在线强化学习稳定策略优化,并扩展至四足机器人、人形机器人和自动驾驶等场景 [48][51][53] - 安全导向方法如SafeVLA引入约束学习对齐机制,在开放环境中防止高风险动作,但奖励工程的噪声信号和训练稳定性仍是挑战 [50][54] - 效率优化策略采用量化、剪枝和知识蒸馏等技术,在保持任务成功率的同时降低内存使用和提升推理速度 [53] 混合与专用方法 - 混合架构整合自回归、扩散和强化学习等多种范式,以兼顾推理精度与动作生成的物理一致性,代表性工作如HybridVLA在单一框架中结合扩散轨迹和自回归推理 [56][57] - 高级多模态融合强调3D空间理解和显式几何约束建模,从早期2D特征拼接转向模块化、具3D意识的架构,以提升在非结构化环境中的操作可靠性 [59][60] - 领域适配将VLA原则扩展至自动驾驶、人形机器人控制和GUI交互等特定场景,通过专用数据集(如CoVLA)和层级化设计解决领域独特挑战 [61][62] 数据集与仿真资源 - 高质量数据集是VLA模型发展的基石,真实世界数据集如Open X-Embodiment整合了来自21个机构的22个机器人数据集,覆盖527种技能和160,266个任务,显著提升了模型的泛化能力 [16][71][76] - 仿真数据集通过虚拟环境生成大规模标注数据,支持可扩展训练和安全测试,代表性平台包括THOR、Habitat和CARLA,它们提供了多样化的交互场景和传感器配置 [16][80][81] - 基准评测常用成功率、语言跟随率和轨迹误差等指标,并通过迁移到未见环境评估模型的鲁棒性,仿真基准如VIMA-BENCH和CALVIN设计了多级协议以系统化测试泛化能力 [76][79][82]
UCLA最新!大模型时序推理和Agentic系统的全面综述
自动驾驶之心· 2025-09-28 07:33
时间序列推理(TSR)的兴起背景 - 时间序列数据是现代社会的"数字脉搏",广泛应用于金融风控、医疗诊断、能源调度和交通管理等关键领域[1] - 传统时间序列分析技术(如ARIMA、LSTM)在预测和异常检测等基础任务上已取得显著进展,例如用LSTM预测未来24小时城市用电量,用CNN检测心电图中的心律失常片段[1] - 随着应用需求升级,传统方法在解释性、因果推断和动态响应方面存在三大局限:缺乏解释性、难以处理因果、静态响应不足[8][14] - 大语言模型(LLMs)具备分步推理轨迹、因果假设生成和智能体交互能力三大核心能力,为时间序列分析带来范式革命[8][14] - 时间序列推理被定义为利用LLMs对时序数据执行显式结构化推理的方法,可融合多模态上下文与智能体系统,实现解释、干预与动态生成[8] 三维分类框架 - 综述构建了"推理拓扑-核心目标-属性标签"三维分类框架,系统化梳理时间序列推理领域[9] - 第一维度推理拓扑定义LLMs执行推理的流程结构,分为直接推理、线性链推理和分支结构推理三类[12] - 直接推理是单步映射结构,高效但缺乏可解释性,典型案例包括LLMTIME将预测转化为文本生成任务,HiTime在单次前向传递中生成类标签[15][17] - 线性链推理通过有序推理步骤序列提升可解释性,案例如TimeReasoner将预测视为深思熟虑过程,RAF引入检索增强框架[18][21] - 分支结构推理支持多路径探索和自修正,是最高级拓扑,案例如AD-AGENT多智能体异常检测框架,BRIDGE多智能体时序生成模型[22][23][27] - 第二维度核心目标定义推理意图,涵盖传统时间序列分析、解释与理解、因果推断与决策、时间序列生成四类[24][28] - 第三维度属性标签细化方法特征,包括控制流操作、执行主体、信息来源和LLM对齐方式四类辅助特征[28][29][30][31][32] 核心目标应用场景 - 传统时间序列分析目标用LLM增强预测、分类、异常检测和分割等基础任务性能,例如用LLM结合新闻预测股价,用VLM分析时序图表检测电力系统异常[28] - 解释与理解目标要求LLM输出人类可理解的解释,支持时序问答、诊断解释和结构发现等任务,例如生成ECG诊断报告时说明异常波峰出现时间及可能原因[28] - 因果推断与决策是高级目标,支持自主策略学习、辅助决策支持和控制优化,例如LLM结合市场数据学习交易策略,为医生提供用药剂量调整建议[28] - 时间序列生成目标聚焦数据合成,支持条件合成和场景模拟,例如基于文本描述生成温度数据,生成极端天气下的电网负荷数据用于测试[28] 资源与工具支撑 - 推理优先基准专门测试LLM推理能力,例如MTBench多模态时序问答基准要求结合文本报告与时序数据回答问题[34][36] - 推理就绪基准自带丰富辅助信息支持推理研究,例如GPT4MTS包含时序数据与文本描述,RATs40K异常检测基准包含异常原因文本标注[34][36] - 通用时序基准是传统任务测试床,例如FinBen金融时序基准支持预测和风险管理,UEA/UCR时序分类基准包含多领域数据[34][36] 核心挑战与未来方向 - 标准化评估需结合证据忠实性和决策效用等全面指标,构建压力测试基准应对数据分布偏移和长时域场景[34][37] - 多模态融合存在时间对齐、模态失衡和风格鲁棒性三大问题,需解决文本、图像与时序数据精准匹配难题[38][41] - 长上下文与效率挑战需开发时序压缩技术和优化推理效率,以处理现实中的超长时序数据[38][41] - 智能体与工具使用需解决行动选择、工具适配和风险控制等鲁棒性与安全性问题[38][41] - 因果推断落地需解决时间混淆变量和构建因果基准,实现从相关性到因果性的跨越[38][41] - 成本与实用性需开发轻量化推理技术,将成本纳入设计指标以平衡性能与计算开销[38][41] - 未来时间序列推理将向大规模可靠性迈进,构建能理解、解释并作用于动态世界的智能系统[39]
西交利物浦&港科最新!轨迹预测基座大模型综述
自动驾驶之心· 2025-09-25 07:33
文章核心观点 - 大型基础模型(LFMs)为自动驾驶轨迹预测带来了范式转变,从传统的信号级预测转向语义级推理,通过整合语言和情境知识提升了对复杂交通场景的理解能力 [1] - 基于LLM的方法在轨迹预测中展现出三大核心优势:强大的语义推理能力、对长尾场景的卓越泛化能力以及多模态信息的深度融合能力,显著提高了预测的可解释性和安全性 [11][20] - 尽管优势显著,该技术在实际应用中仍面临计算延迟高(自回归解码延迟常超过100毫秒,难以满足车辆控制周期低于50毫秒的严格要求)、数据稀缺以及真实世界鲁棒性等关键挑战 [20] 轨迹预测技术演变 - 轨迹预测技术经历了从基于物理模型和机器学习方法,到深度学习方法,再到当前以大型基础模型为主导的演变过程 [4][8] - 传统方法(如卡尔曼滤波器、高斯过程)计算高效但难以处理复杂交互场景,深度学习方法(端到端架构)能自动提取时空特征并生成多模态概率输出,但存在计算需求高、可解释性差等局限 [8][9] - 强化学习方法在交互场景建模和长期预测方面表现出色,但训练过程复杂且不稳定,存在“黑盒”问题 [9] 基于LLM的轨迹预测关键方法 - **轨迹-语言映射**:通过提示工程将轨迹数据编码为结构化文本(如“自车速度:12m/s”),或利用轨迹离散化技术(如VQ-VAE)将连续轨迹映射为离散符号序列,使LLM能够理解运动行为 [12] - **多模态融合**:设计共享的场景编码器(如BEV编码器)将图像、LiDAR点云和地图信息映射为统一表示,再与语言指令进行交叉注意力融合,典型框架包括DiMA和DrivingGPT [12] - **基于约束的推理**:利用LLM的常识知识,通过链式思维提示和规则注入(如交通规则)使轨迹生成过程透明且合规,例如CoT-Drive将预测分解为场景解析、交互分析等多步骤 [13] 实验基准与性能评估 - **主流数据集**:行人预测广泛使用ETH/UCY数据集,车辆轨迹预测则以Waymo Open Motion Dataset(WOMD)、nuScenes和Argoverse为主流基准,新兴数据集如nuPlan专注于闭环规划与预测的协同评估 [16] - **核心评估指标**:车辆轨迹预测主要关注L2距离(预测终点与真实终点的欧氏距离)和碰撞率,行人预测则主要使用minADE和minFDE(计算K=20个预测值中的最佳结果) [17] - **性能对比**:基于LLM的方法在关键指标上显著优于传统深度学习方法,例如DriveVLM-Dual在NuScenes数据集上的平均碰撞率仅为0.1%,而传统方法如UniAD为0.37% [18] 未来研究方向 - 发展超低延迟推理技术(如非自回归解码)以满足实时控制需求,解决当前自回归解码延迟超过100毫秒的问题 [21] - 构建面向运动的基础模型,通过大规模轨迹预训练提升模型的运动语义理解与生成能力 [21] - 推进世界感知与因果推理模型的研究,使轨迹预测建立在因果机制之上,而不仅仅是关联模式 [21]
万字长文!首篇智能体自进化综述:迈向超级人工智能之路
自动驾驶之心· 2025-09-12 07:33
自进化智能体综述核心观点 - 大语言模型本质上是静态的 无法在面对新任务 不断进化的知识领域或动态交互环境时调整其内部参数 这已成为开放交互式环境部署的关键瓶颈[2][3] - 自进化智能体代表人工智能领域的范式转变 从扩展静态模型转向开发能够从数据 交互和经验中持续学习与适应的系统 这是通往人工超级智能(ASI)的关键路径[3][4] - 综述首次系统性地围绕三个基础维度组织该领域:进化对象(what) 进化时机(when)和进化机制(how) 为理解与设计自进化智能体提供结构化框架[3][6] 进化对象(What to Evolve) - 智能体系统可分解为四个基本进化支柱:模型(推理和行为参数) 上下文(指令和长期记忆) 工具集(外部技能创建和管理) 以及架构(系统协作结构)[19] - 进化机制涵盖策略 经验 提示 记忆 工具创建与掌握 架构选择等多个维度 不同方法在各维度有不同侧重 例如Mem0在7个维度均有进化 MAS-Zero侧重模型和经验进化[20] 进化时机(When to Evolve) - 按时间阶段分为测试时内自进化(任务执行期间实时适应)和测试时外自进化(任务完成间利用积累经验提升未来表现)[22] - 测试时内进化具有在线性 学习数据动态产生且直接针对当前问题 测试时外进化具有回顾性 作用于历史数据旨在提高任务分布预期性能[23] - 进化依赖三种基本学习范式:上下文学习(ICL) 监督微调(SFT)和强化学习(RL) 在不同时间背景下数据可用性和学习目标存在差异[23] 进化机制(How to Evolve) - 主要方法家族包括基于奖励的进化(标量奖励 自然语言反馈 外部信号) 模仿与示范学习(高质量范例学习) 以及基于群体和进化的方法(选择 变异 交叉等机制)[27] - 不同方法在反馈类型 数据源 奖励粒度 样本效率 稳定性和可扩展性等方面存在显著差异 例如基于奖励的方法对奖励设计敏感 模仿学习受示范质量影响大 群体方法资源密集但可扩展性好[29] 应用场景(Where to Evolve) - 应用系统分为通用领域进化(数字领域各种任务能力扩展)和专用领域进化(特定领域专业知识深化) 前者侧重经验迁移 后者侧重领域深化[31] - 关键应用领域包括自主软件工程 个性化教育 医疗保健和智能虚拟助手等 持续适应和进化在这些领域至关重要[10][38] 评估体系(Evaluation) - 评估需超越传统静态系统 涵盖随时间推移的适应能力 知识积累与保留 长期泛化能力以及技能迁移 同时减轻灾难性遗忘[34] - 现有基准如ScienceAgentBench(102任务) SWE-bench(2,294任务) WebShop(12,087任务)等 在任务领域 核心指标和时空范围上各有侧重[36] - 个性化评估需开发更轻量级 适应性指标和动态基准 传统ROUGE和BLEU等指标无法充分捕捉动态进化特性[39] 技术挑战与研究方向 - 泛化能力面临专业化与广泛适应性矛盾 需可扩展架构设计 跨领域适应技术(测试时扩展 推理时适应)以及持续学习与灾难性遗忘解决方案[40][42] - 安全与可控性需应对用户相关风险和环境风险 通过智能体宪法 安全训练算法和隐私保护措施实现平衡部署[43][44] - 多智能体生态系统需平衡个体与集体推理 开发高效算法和自适应框架 并建立动态评估基准反映持续适应和演变交互[45]