思维链技术

搜索文档
全球AI应用产品梳理:模型能力持续迭代,智能体推动商业化进程-20250723
国信证券· 2025-07-23 21:20
报告行业投资评级 - 优于大市(维持评级) [1] 报告的核心观点 - 全球AI发展迅速,模型能力提升、开源推动成本降低,智能体技术完善且新产品密集发布,商业化用量增长,国产模型表现亮眼,C端应用重塑流量入口,B端应用推动企业上云 [2] 根据相关目录分别进行总结 模型层:能力迅速提升,开源推动成本降低 - 模型能力提升,主流架构转向MoE,多模态能力增强,采用思维链技术,其他技术发展推动可用性进步 [8] - 模型训练竞赛趋缓,Scaling Law向推理侧迁移,模型推理能力提升,商业化前景打开 [15] - 模型推理成本显著下滑,API调用价格下降利好应用端成本下降 [20] - 开源与闭源模型差距缩小,推动AI应用落地,开源模型降低使用门槛和成本 [25] 智能体:技术逐步完善,新产品密集发布 - AI Agent与传统人工智能不同,能改变人机协同模式,打开垂直行业应用入口 [30] - 模型Agent能力快速提升,在GAIA测试中表现不断刷新 [33] - MCP扩展AI能力边界,海内外大厂纷纷布局,推动Agent加速落地 [38] - 谷歌发布A2A协议,与MCP互补,加速Agent生态完善,推动AI应用向复杂工作流落地 [45] - 海内外智能体快速发展,测评成绩不断刷新,应用效果快速提高 [46] 商业化:用量持续增长,国产模型表现亮眼 - 中国AI发展走出自身路径,形成生态闭环,芯片产业本土化加速,数据成为核心资源 [55] - 中美模型差距缩小,中国依靠开源模型走出自身生态,在开源模型排行榜上表现优异 [65] - 全球AI模型流量持续上涨,为应用侧发展提供基础,推理需求提升,芯片价格上升,API调用量迅速提升,国产模型表现亮眼 [66][73][79] C端应用:借助AI赋能业务,重塑流量入口 - AI应用有望重塑C端流量入口,互联网巨头具备先发优势,可利用专有数据和用户参与度集成AI功能 [85] - 编程成为人机协同主要领域,办公类任务AI占比较低,人机深度协同存在较大空间 [92] - 以Reddit、Robinhood、多邻国为例,展示AI在社区平台、金融、教育等C端领域的应用及价值创造 [94][99][105] B端应用:开源提升投入意愿,推动企业上云 - 开源模型提升企业投入意愿,刺激国内上云需求,AI技术深入多行业,推动智能化转型,提升企业上云意愿 [112] - 以赛富时、ServiceNow、Snowflake为例,展示AI在CRM、工作流管理、数据库等B端领域的应用及功能升级 [118][124][131] - 汇总海外和中国AI应用厂商在各领域的主营业务及AI应用情况 [132][133]
张哲:数据帮助解决算法模型落地的最后一公里问题
贝壳财经· 2025-07-12 12:07
AI大模型发展趋势 - 近两年AI大模型从单模态向多模态发展 [5] - 应用场景从通用场景快速转向垂直场景 [5] - DeepSeek火爆推动思维链(CoT)技术受关注 该技术使模型从"快思考"转为"慢思考" 提升复杂问题处理的准确性和可靠性 [5] - 数据需求呈现多模态、多场景、思维链等新趋势 [5] AI行业训练数据需求变化 - 大模型崛起推动AI与千行百业融合 [6] - 算法模型落地普遍存在"最后一公里"问题 [6] - 持续获取对应场景高质量数据是解决"最后一公里"的关键途径 [6] 海天瑞声业务发展 - 中国AI数据市场仅占全球一小部分 主要市场在海外 [7] - 公司境外收入占比接近50% 首次在海外布局自主可控数据交付基地 [7] - 成立于2005年 是国内最早AI训练数据解决方案提供商之一 [7] - 目前AI数据行业唯一主板上市公司 为全球AI企业提供全方位数据资源及服务 [7]
“由 AI 生成的代码,从诞生那一刻起就是「遗留代码」!”
AI科技大本营· 2025-05-12 18:25
AI生成代码的特性分析 - AI生成的代码缺乏上下文记忆和维护连续性,一诞生就处于"他人旧作"的状态 [1] - AI生成的代码具有"无状态"特性,无法真正理解作者意图或拥有时间点记忆 [3] - 每次AI生成的代码都像是"由别人写的",跳过了"新代码"阶段直接进入"旧代码"模式 [5] 代码生命周期与维护行为 - 代码演进速度取决于编写时间远近和维护者是否为原作者 [1] - 人类维护者对不同时期代码的四种典型态度:近期自写代码最易改进,他人旧代码最不愿改动 [4] - 遗留代码的本质是支撑代码的"理论"随原作者离开而失传,仅保留低保真表达的代码和文档 [8] 行业解决方案与发展趋势 - 开发者尝试通过精心构造提示、设计上下文窗口和详细注释来弥补AI缺陷 [5] - Chain of Thought技术可能解决AI无状态问题,通过重新激活上下文理解代码 [10] - 未来代码可能更依赖模型推理和提示生成,而非长期维护的静态结构 [5] LLM时代的理论构建探讨 - LLM可能隐含某种尚未被理解的"程序理论",或能从代码中逐步构建理论 [12] - 技术债管理新思路:保存Prompt可帮助理解代码存在原因,优于人类记忆 [10] - 理论掌握权可能转移至写prompt的人而非写代码的人 [12] 行业观点与讨论 - 软件开发本质是开发者集体心智构建的"理论",代码只是其低保真表达 [8] - 人类开发者常通过"时代写法"解释代码,部分确实反映历史约束条件 [9] - 代码提示生成可能成为短期/中期的过渡桥梁,而非长期维护对象 [6]
OpenAI加码写作赛道?阿里最新大模型通用写作能力基准WritingBench,揭秘深度思考能否增进文学表达
量子位· 2025-03-20 18:56
大模型写作评估基准 - 阿里研究团队联合中国人民大学和上海交通大学开源WritingBench评估基准,覆盖6大领域、100个细分场景,包含1000+条评测数据,旨在全面评估生成式写作能力 [3] - 该基准解决了行业两大难题:1) 现有评估局限于单一领域和短文本,商业文书、法律文书等成为盲区 [4][5];2) 传统评估方法与人类判断一致性不足65%,无法适应创意写作等复杂场景 [7][8] - WritingBench采用四阶段人机协同构建流程,耗时三个月完成评测集,支持风格、格式、长度等多维度能力评测 [11][12][16] 动态评估体系创新 - 设计基于写作意图的动态评估方法,模型可针对每个输入自动生成五个评测指标,实现87%的人类一致性得分 [19][20] - 配套训练评分模型,能自适应给出1-10分评分及理由,例如对OpenAI示例从元小说技巧等五个维度评估 [21][25][26] - 对比其他基准,WritingBench数据量达1239条,输入token平均1546,最大19361,覆盖领域和素材来源更广 [17] 模型性能表现 - 基于Qwen开发的32B创作模型在创意型任务上接近顶尖模型R1表现,思维链技术显著提升效果 [3][29] - 实验显示带思维链的32B模型在创意写作中得分8.66,超越同系列Qwen-Max(8.39)和R1(8.55) [30] - 但在效率型写作任务中,深度思考可能引发过度推理和幻觉问题,提升效果有限 [32][33][34] 技术瓶颈与挑战 - 模型存在3000 token长度生成瓶颈,超过该阈值后质量显著下降,小模型易重复,大模型易提前终止 [35][36][37] - 短文本输出仍难以严格遵循长度要求,如Gemini-1.5-Pro在复杂分块需求中失败 [39][40] - 当前先进模型在文学与艺术领域表现不佳,仅OpenAI的o1和Deepseek的R1等少数模型表现突出 [27][28]
晚点独家丨月之暗面探索 o1,跟字节抢来华为刘征瀛
晚点LatePost· 2024-11-28 22:57
月之暗面技术动态 - 月之暗面发布新数学模型k0-math 创始人杨植麟在发布会上23次提到强化学习 17次提到推理 7次提到o1模型[2] - k0-math测评评分与OpenAI的o1模型对比 两者均采用强化学习和思维链技术[3] - 公司半年前已开始研发k0-math 内部代号"胖胖" 年初将"多阶段推理"纳入年度规划[5] 技术团队建设 - 引入华为诺亚方舟实验室原AI研究员刘征瀛 带队探索o1方向 刘曾拒绝字节跳动邀请[3][4] - 刘征瀛专业背景为北大物理数学双学位 巴黎萨克雷大学AutoML博士 专注AI for Math领域[5] - 公司现有100多人 技术团队包括Transformer专家苏剑林 微软亚研院多模态专家谭旭等[6] - 创始人杨植麟发表过XLNet等重磅论文 联合创始人周昕宇有单篇引用超9000次的CNN论文[6] 模型能力进展 - 10月推出Kimi探索版 实现多步思考和深度检索功能[6] - 杨植麟认为o1模型代表范式转换 从Next-Token Prediction转向强化学习Scaling[3] 行业竞争态势 - 大模型竞争焦点从算法技术扩展到产品设计 投放效率 留存转化等综合能力[6] - 字节跳动等大公司在商业化资源和经验方面具有优势[6]