大语言模型(LLM)
搜索文档
智谱,通过港交所IPO聆讯,或很快香港上市,中金公司独家保荐
搜狐财经· 2025-12-20 20:11
| 纂]項下的圖纂 數目 | [编纂]股H股(視乎[编纂]行使與否而定) | | --- | --- | | [编纂]數目 | [编纂]股H股(可予重新分配) | | [编纂]數目 | [編纂]股H股(可予重新分配及視乎[編纂] | | 行使與否而定) | | | 最高 编纂] | 每股H股[編纂]港元,另加1.0%經紀佣金、0.0027% | | | 證監會交易徵費、0.00565%聯交所交易費及 | | | 0.00015%會財局交易徵費(須於申請時以港元繳 | | 足,多繳股款可予退還) | | | 面值 | 每股H股人民幣[0.10]元 | | [編纂] | [編纂] | | CICC中金公司 | 獨家保薦人、 编纂] 编纂] | 2025年12月19日,来自北京海淀区的北京智谱华章科技股份有限公司Knowledge Atlas Technology Joint Stock Company Limited.(以下简 称"智谱")在港交所披露聆讯后的招股书,或很快在香港主板IPO上市。 智谱华章招股书链接: 主要业务 智谱 ,成立于2019年,作为中国领先的人工智能公司,追求通用人工智能( AGI) 创 ...
香港证监会原主席梁定邦:智能金融不“唯大模型”论 监管需严保数据真实与风险可控
新浪财经· 2025-12-20 18:02
专题:2025年深圳香蜜湖金融年会 12月20日,香港证监会原主席梁定邦在深圳香蜜湖金融年会上,就港澳智能金融及人工智能发展发表观 点。 他指出,港澳地区智能金融已覆盖至银行、证券、保险、跨境金融和电子支付五个领域。香港在推进人 工智能应用于传统金融时,并非单纯依赖大语言模型(LLM),而是采取包括区块链在内的多层次、 多架构的技术融合策略。 以金融监管角度来说,梁定邦表示,目前 "大数据"仍是香港金融科技应用基础,"大模型"只是其中一 环。香港自2019年起,已经在监管中引入"大数据"分析、专家系统、机器学习等多种技术手段,监管机 构在核心业务中优先使用可验证、可追溯的底层真实数据,而大模型则多用于辅助性、后台类工作。 梁定邦提示,由于大模型目前仍存在"幻觉"风险,因此在金融监管及机构的业务场景中,必须对AI保持 审慎态度。他表示,生成式人工智能在涉及客户直接交互的前台业务中应用仍较为谨慎,主要集中于后 台的风险管理、数据分析等支持性环节。。即便如此,最终决策仍需由风险管理委员会及风险官结合个 人经验与多维度数据进行最终判断,不能完全依赖模型输出。 梁定邦表示,香港在智能金融发展上保持高度开放态度,但在客户 ...
Karpathy 2025 年度盘点:o3 是真正拐点,Cursor 证明了应用层比我们想象的要厚
Founder Park· 2025-12-20 16:59
文章转载自「赛博禅心」 Andrej Karpathy 在 X 上更新了一篇博客文章,回顾了 2025 年大模型发展。 在文章中,Karpathy 提到,2025 年,是 LLM 令人兴奋的一年。 LLM 正在作为一种全新的智能形态浮现,它们同时比我们预想的聪明得多,也比我们预想的蠢得多。 即便在当前的能力水平下,整个行业也远未实现其 10% 的潜力。 超 17000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。 邀请从业者、开发人员和创业者,飞书扫码加群: 进群后,你有机会得到: 01 可验证奖励的强化学习(RLVR), 与此同时,有太多的想法值得去尝试,从概念上看这个领域依然广阔开放。 正如我今年早些时候 在 Dwarkesh 播客中提到的 ,相信我们将继续见证快速而持续的进步,但同时仍有大量工作要做, 系好安全带。 以下是我个人认为最值得关注的几个「范式转变」,这些变化重塑了整个行业格局,也在概念上给我留下了深刻印象。 TLDR: ⬆️关注 Founder Park,最及时最干货的创业分享 成为新的训练主力 2025 年,可验证奖励的强化学习(RLVR)成为 LLM 训练的新主力环节; ...
AI智能体时代中的记忆:形式、功能与动态综述
新浪财经· 2025-12-17 12:42
记忆已成为并将继续成为基于基础模型的智能体的核心能力。它支撑着长程推理、持续适应以及与复杂环境的有效交互。随着智能体记忆研究的快速扩张 并吸引空前关注,该领域也日益呈现碎片化。当前统称为"智能体记忆"的研究工作,在动机、实现、假设和评估方案上往往存在巨大差异,而定义松散的 记忆术语的激增进一步模糊了概念上的清晰度。诸如长/短期记忆之类的传统分类法已被证明不足以捕捉当代智能体记忆系统的多样性和动态性。 在这些智能体的核心能力中,记忆 尤为关键,它明确地促成了从静态大语言模型(其参数无法快速更新)到自适应智能体的转变,使其能够通过环境交 互持续适应(Zhang et al., 2025r; Wu et al., 2025g)。从应用角度看,许多领域都要求智能体具备主动的记忆管理能力,而非短暂、易忘的行为:个性化聊 天机器人(Chhikara et al., 2025; Li et al., 2025b)、推荐系统(Liu et al., 2025b)、社会模拟(Park et al., 2023; Yang et al., 2025)以及金融调查(Zhang et al., 2024)都依赖于智能体处理、存储和管 ...
AI赋能资产配置(三十二):AI如何赋能财经信息“聚合提纯”?
国信证券· 2025-12-13 21:02
核心观点 - AI大模型通过自动化财经情报工具,为解决金融信息处理领域的信息过载、分析成本高等痛点提供了技术支撑,其核心在于将情绪分析贯穿于信息处理全链条,实现从信息聚合到价值挖掘的流程革新 [2][3] - 以Wide-Research-for-Finance工具为例,其通过两阶段处理机制(热点筛选与深度分析),实现了财经信息分析的标准化、自动化与低成本化,旨在缩小专业信息鸿沟,推动金融信息服务普惠 [2][4][5] AI赋能财经信息处理的行业痛点与解决方案 - 传统金融信息检索面临三大痛点:信息源分散导致检索效率低下、非结构化数据难以快速提炼核心价值、市场情绪难以量化导致决策主观性较强 [3] - AI技术,特别是大语言模型在文本理解与情绪分析领域的突破,为解决上述痛点提供了全新方案,通过模块化架构设计实现“数据采集-信息提炼-分析输出”的全流程自动化 [3] - AI被定位为高效的信息“提纯器”,从海量文本中提取核心实体、判断情绪倾向、分类事件类型,而非黑盒预测器 [4] Wide-Research-for-Finance工具的核心功能与优势 - **高效信息聚合与筛选**:工具系统性整合全球21个核心信息源,涵盖国际主流媒体、专业分析平台及政策发布机构,通过RSS解析器与网页爬虫自动完成实时数据抓取 [7] - **两阶段处理机制**:第一阶段通过标题快速筛选每小时采集的200+条新闻;第二阶段依托DeepSeek大模型完成情绪识别、实体提取、事件分类与影响评估,并同步生成结构化报告 [2][4] - **标准化与自动化输出**:自动将筛选分析后的信息转化为市场情绪总览、热点追踪榜单、重大事件摘要等模块化报告,减少人工解读主观性,方便用户快速抓取关键信息 [4][7] - **低成本与高灵活性**:工具具备开源属性,支持本地部署与自定义数据源扩展,日均API成本控制在0.08美元以内,让个人投资者与小型团队能以较低成本获得专业级情报 [4][8] AI在多源实时财经热点提炼中的应用 - 工具实现了财经热点提炼的全流程自动化,打破了传统信息获取的时间与成本壁垒,将依赖人工经验的过程转化为标准化、可复现的自动化流程 [6][8] - 热点捕捉具备结构化与量化优势,并非简单罗列新闻,而是通过关键词出现频次排序呈现核心关注对象,生成模块化的热点分析结果 [7] - 如图1示例,工具从海量新闻中筛选出20条有效新闻,并识别出其中四条预计会影响市场情绪的重大事件 [7][9] AI在市场情绪分析中的深度应用 - **深度分析实现量到质转换**:通过大模型将筛选后的热点信息进行事件分类与影响评估,自动识别新闻中的关键要素(如公司、人物、政策)并标记事件类型 [11] - **情绪量化与可视化**:系统通过情绪指数量化市场整体氛围,例如明确输出“中性(情绪指数:0.18)”,使市场情绪可感可测 [11] - **具体分析示例**:工具可对事件进行标注,如将【外资看好中国股市延续涨势】标注为【情绪: 积极|中国: 积极|美国: 中性】,让投资者快速聚焦核心价值信息 [11] - **支持个性化扩展**:支持用户自定义添加多领域RSS源,实现专属热点的精准捕捉 [11] 工具定位、局限与行业趋势 - 该工具是聚焦基础功能的开源项目,定位为通过技术优化实现金融信息服务普惠,让不同规模的投资者都能以较低成本获得结构化、标准化的情报支持 [5] - 工具目前存在明确提升空间,例如历史数据深度挖掘功能不足,无法支持长期情绪趋势分析等进阶场景 [5] - 其所代表的大模型赋能财经信息获取思路,正在成为中小规模用户获取专业财经情报的新方向 [5]
LLM距离AGI只差一层:斯坦福研究颠覆「模式匹配」观点
机器之心· 2025-12-10 18:30
文章核心观点 - 大语言模型的理论基础可能面临改变,传统认为“LLM只是模式匹配器”的观点被颠覆[1][2] - 实现通用人工智能的瓶颈在于缺少一个“协调层”来组织模型的模式以实现可靠推理,而非单纯扩大模型规模[3][4][5] - 提出“基础层加协调层”的第三条道路,其中LLM作为系统-1基础层(模式存储库),而缺失的系统-2协调层负责将模式与外部约束绑定、验证输出并维护状态[5][8] 关于AGI瓶颈与协调层理论 - 人工智能界围绕大语言模型本质存在分裂:扩展派认为LLMs足以实现AGI,而批评者认为LLM仅是模式匹配器,在结构上不具备推理能力,是死胡同[5] - 核心观点认为争论建立在错误的二分法上,LLM的失败不是因为缺乏推理能力,而是缺少将其模式与目标绑定的系统[5] - 使用捕鱼隐喻解释:海洋代表模型庞大的模式库,无饵撒网只能捕获最常见鱼类(通用模式);智能行为需要下饵(传达意图)和过滤,诱饵的密度需要优化以高效吸引目标鱼类(特定概念)[6] - “缺失的层”是协调层,其作用是优化计算转移后验分布所需的精确密度,同时控制成本[8] UCCT理论与推理相变 - 作者引入统一认知意识理论来形式化协调机制[9] - UCCT最激进的观点是:LLM从幻觉到推理的转变是一个相变,而非线性过程,类似于水在冰点凝结[10] - 相变由锚定分数决定,该分数综合考虑三个关键变量:有效支持、表征失配和自适应锚定预算[10][13] - 幻觉是模型在未加诱饵情况下输出其模式存储库的最大似然先验;推理则是外部约束将后验分布从通用统计模式转向目标的结果[10] - 只要提供足够密度的“诱饵”和“渔网”(即协调层的锚定机制),LLM就能被组织起来执行可靠推理[10] MACI架构与核心组件 - 为将UCCT理论转化为实际架构,作者构建了多智能体协作智能,这是一个为LLMs提供类似人类“执行功能”的协调堆栈[12] - MACI架构通过三个核心组件映射并解决UCCT中决定推理相变的三要素[13] - **有效支持**:指外部约束对目标任务提供的强度和密度,作用是拉动模型走向目标,有效锚点越多分数越高[13] - **表征失配**:指模型当前潜在模式与目标任务或外部约束之间的差异程度,作用是惩罚模型偏离约束,失配度越大分数越低[13] - **自适应锚定预算**:代表为达到目标愿意付出的上下文成本和计算资源,作用是平衡效率与可靠性[13] - 当锚定分数低于阈值时,模型基于训练数据的统计学最大似然先验输出,表现为幻觉;高于阈值时,目标导向约束主导后验分布,推理行为被激活[13] - 深度协调模式将推理视为受控过程,智能体进行辩论、交叉检查、修改方案等,由锚定信号指导,本质上是在底层模式基质之上叠加执行功能[14] MACI的具体实现机制 - **行为调制的辩论**:用于最大化有效支持,让多个智能体扮演不同角色进行辩论,主动检索、生成和验证证据,确保审议多角度且有证据支持[18] - **苏格拉底式评判CRIT**:用于最小化表征失配,CRIT作为专门裁判,在推理每一步严格审查智能体的提议和论点,查找过滤与事实或约束矛盾的内容,防止低质量或幻觉性内容污染推理循环[18] - **事务性内存**:用于优化锚定预算,以持久化和事务性方式存储经过验证的关键中间状态,避免重复计算和上下文膨胀[18] 对AGI路径的重新认知 - AGI不会来自于更大的模式之海,而将来自于组织这些模式以形成可靠推理的网、诱饵、过滤器和记忆机制[14] - 如果该技术能够扩展,LLM将不再是“自动补全”,而会成为完整推理系统的认知基质[14] - 大语言模型是实现AGI的必要“认知基质”,其瓶颈不在于底层模式规模,而在于缺失一个将这些模式组织和绑定到目标的“协调层”[14]
深大团队让机器人听懂指令精准导航,成功率可达72.5%,推理效率提升40%
36氪· 2025-12-10 15:00
行业技术突破 - 深圳大学李坚强教授团队联合北京理工莫斯科大学等机构,提出了视觉-语言导航新框架UNeMo,其核心是构建了“多模态世界模型+分层预测反馈导航器”的双向协同架构,旨在解决现有方法中视觉状态推理与导航决策脱节的问题 [1][6] - 该框架通过多模态世界模型预测未来视觉状态,并结合分层预测反馈导航器进行决策,形成了“推理-决策”相互赋能的动态闭环优化,使智能体能在复杂环境中持续迭代并做出更聪明的决策 [3][12] 技术优势与性能 - 在资源消耗方面实现大幅优化:UNeMo采用FlanT5-1.5B模型,参数规模仅为对比方法NavGPT2所用FlanT5-5B模型的30%,训练时GPU显存占用从27GB降至12GB,减少56%,推理速度从每步1.1秒提升至0.7秒,效率提升40% [14][15] - 在核心性能上实现超越:在R2R数据集的未见环境测试中,UNeMo的导航成功率(SR)达到72.5%,较NavGPT2的71%提升1.5个百分点,路径效率(SPL)从60%提升至61.3% [15][16] - 在长路径导航中表现尤为突出:在路径长度≥7的长轨迹任务中,导航成功率(SR)大幅提升5.6%(从64.2%至69.8%),提升幅度是短路径的4.7倍,有效缓解了长距离导航的累积误差 [17] 通用性与可拓展性 - 框架展现出强可拓展性:团队将UNeMo迁移至不同类型的导航基线(如DUET)与目标导向导航数据集REVERIE进行验证,实验结果显示其在未见场景的导航成功率(SR)与远程目标定位成功率(RGS)指标上均有提升 [18][19][20] - 这表明UNeMo的协同训练架构并非局限于特定类型的导航系统,能够灵活适配不同任务场景,验证了其作为通用导航架构的潜力 [20] 学术认可与影响 - 该研究成果已入选顶级人工智能会议AAAI 2026,为视觉-语言导航领域提供了高效可行的新方案,有望推动服务机器人等实际应用场景的落地发展 [3][21]
深大团队让机器人听懂指令精准导航!成功率可达72.5%,推理效率提升40%|AAAI2026
新浪财经· 2025-12-10 14:52
技术突破与核心架构 - 深圳大学李坚强教授团队联合北京理工莫斯科大学等机构提出视觉-语言导航新框架UNeMo 其核心突破在于构建了“多模态世界模型+分层预测反馈导航器”的双向协同架构 将视觉状态推理与导航决策深度绑定 从根本上解决现有方法的脱节问题 [1][5][20] - UNeMo通过多模态世界模型与分层预测反馈机制 让导航智能体不仅能感知当前环境 还能预测未来视觉状态 并据此做出更聪明的决策 [3][18] - 多模态世界模型基于条件变分自编码器构建 核心是精准预判未来视觉状态 它通过跨注意力机制融合多模态信息 且无需额外标注数据 就能通过导航决策结果反向反馈 持续优化预测精度 形成自适应进化循环 [5][21] - 分层预测反馈导航器采用两阶段分层机制 先基于当前特征生成粗粒度候选动作锁定方向 再融合预测的未来视觉状态优化出细粒度动作修正偏差 让智能体在复杂场景中稳健导航 [8][24] - 该框架构建了“推理-决策”相互赋能的闭环优化 MWM的视觉预判提升导航决策精准度 导航的实际执行结果则实时反馈给MWM优化其预测准确性 这种双向促进让智能体在导航中持续迭代 [10][26] 性能优势与实验验证 - 在VLN领域核心数据集R2R的实验中 UNeMo在轻量化配置与高性能决策的平衡上实现关键突破 其采用的FlanT5-1.5B模型参数规模仅为主流方法NavGPT2所用FlanT5-5B的30% [11][27] - 在资源消耗上实现大幅优化 训练时GPU显存占用从27GB降至12GB 减少56% 推理速度从每步1.1秒提升至0.7秒 效率提升40% [11][27] - 在模型未见过的测试环境中 其导航成功率(SR)达到72.5% 较NavGPT2的71%提升1.5个百分点 路径效率(SPL)从60%提升至61.3% [12][28] - 在复杂的长路径导航场景中 UNeMo优势尤为突出 短路径(长度<7)的导航成功率仅微增1.2%(从71.1%至72.3%) 而长路径(长度≥7)的SR大幅提升5.6%(从64.2%至69.8%) 提升幅度是短路径的4.7倍 证明其能有效缓解长距离导航中的累积误差 [13][14][29][30] - 在跨场景可拓展性验证中 团队将UNeMo迁移至不同类型的导航基线(DUET)与目标导向导航数据集REVERIE 实验结果显示其在unseen场景的导航成功率与远程目标定位成功率指标上均有提升 验证了其强可拓展性 [15][31][32] 行业影响与落地前景 - UNeMo针对传统VLN方法推理与决策脱节、资源消耗高的问题 以协同架构破解痛点 其轻量化配置具备高性能、长路径导航稳健、跨场景适配性强的优势 [16][33] - 该研究为视觉-语言导航提供了高效可行的方案 有助于推动服务机器人等实际场景的落地应用 [16][33] - 该论文已入选人工智能顶级会议AAAI 2026 显示了其学术价值与行业关注度 [3][18]
谷歌IMO金牌级Gemini 3深夜上线,华人大神挂帅,OpenAI无力反击
36氪· 2025-12-05 18:08
产品发布:Gemini 3 Deep Think - 谷歌DeepMind发布全新推理模型Gemini 3 Deep Think,基于前代Gemini 2.5 Deep Think迭代,在复杂数学、科学和逻辑难题的推理能力上实现质的飞跃[7] - 该模型的核心能力是“并行思考”,可同时探索多种假设以解决超高难度问题[2][14] - 模型在多项基准测试中取得行业领先成绩:在Humanity‘s Last Exam(无工具辅助)上获得41%的高分,在ARC-AGI-2(配合代码执行)上创下45.1%的新纪录[2][7],在ARC-AGI系列测试中实力被描述为无“模”能敌[10] - 产品已上线,所有Gemini App的Ultra订阅用户即可体验[5][11] 技术演示与能力 - 在3D场景生成任务中,Gemini 3 Deep Think相比Gemini 3 Pro展现出更高的还原度和符合物理逻辑的交互光影[5] - 该模型能够根据草图创建精确的交互式3D场景[5],并能生成具备真实物理效果(如碰撞模拟)的游戏关卡和动画[14][16] - 在程序化生成内容(如创建地球类行星)的任务中,Deep Think版本被评价为比Pro版本更具创造力[14] - 开发者实测表明,该模型具备根据静态照片(如玻璃瓶)生成相应3D动画的惊人能力[15][16] 团队与人才战略 - 谷歌DeepMind宣布在新加坡组建一支全新的精英团队,专注于高级推理、大语言模型/强化学习,并推进Gemini及Deep Think等前沿模型的发展[18] - 该团队由华人科学家Yi Tay领导,并向位于山景城、由谷歌Fellow Quoc Le领导的团队汇报,后者是Gemini Deep Think在IMO和ICPC竞赛中获得金牌突破的核心团队之一[18][20] - 团队组建理念强调“人才密度”,初期规模小但能力极强,并已从全球招募顶尖人才[20][21][23] - 团队将与包括“推理之王”Denny Zhou、Noam Shazeer在内的多位AI领域顶尖研究者联动[23] - 该项目得到了谷歌DeepMind内部高层(如Demis Hassabis、Jeff Dean)的大力支持[23] 市场动态与竞争格局 - 随着Gemini 3 Pro的发布,谷歌Gemini的网页端市场份额突破15%大关,目前达到15.1%[26][27] - Gemini的网站访问量达到13.51亿次,较上月(10月)增长14.3%[30] - 尽管ChatGPT在流量上仍断崖式领先,但其市场份额持续下降,目前为71.3%,网站访问量降至58.44亿次,这是其在2025年第二次出现环比下滑[26][27][30] - Grok凭借4.1版本的发布持续增长,市场份额升至2.7%,网站访问量达到2.344亿次,创历史新高,较10月增长14.7%,并首次实现连续两个月流量增长[26][27][33]
元保发布第三季度财报:营收达11.58亿元,AI驱动业务成效显著
格隆汇· 2025-12-03 18:07
公司财务业绩 - 第三季度总收入达人民币11.58亿元,同比增长33.6% [1] - 第三季度净利润达人民币3.70亿元,同比增长51.3% [1] - 截至2025年9月30日现金储备达人民币37.50亿元 [1] 技术能力与投入 - 模型库已扩充至超过4900个模型、5500个特征,较上年同期分别新增约400个、750个 [1] - 研发人员占比近70%,AI团队规模持续保持员工总数的10%以上 [1] - 第三季度新保单数量达800万份,同比增长41.8% [1] 大语言模型应用 - 研发端AI生成代码占比近50% [1] - 客服端通过大模型自动生成服务工单摘要、提炼关键信息并给出处理建议,辅助身份核验和记录客户情绪变化 [1] - 消费者全周期服务引擎引入大模型辅助建模与特征自动挖掘技术,提升建模速度和效果 [1] 行业发展趋势 - 全国性"医保+商保"清分结算中心落地,商业保险与基本医保实现"一站式"衔接 [2] - 商业保险已成为我国多层次医疗保障体系中的重要组成部分,普惠健康险迎来更广阔发展空间 [2] 公司产品与服务 - 联合保司推出以"普惠价格撬动百万保额"的短期重疾险,采用"一次给付+多次报销"模式 [2] - 客服中心发布"五心服务"标准,提升用户全流程保障体验 [2]