思维链技术

搜索文档
“由 AI 生成的代码,从诞生那一刻起就是「遗留代码」!”
AI科技大本营· 2025-05-12 18:25
AI生成代码的特性分析 - AI生成的代码缺乏上下文记忆和维护连续性,一诞生就处于"他人旧作"的状态 [1] - AI生成的代码具有"无状态"特性,无法真正理解作者意图或拥有时间点记忆 [3] - 每次AI生成的代码都像是"由别人写的",跳过了"新代码"阶段直接进入"旧代码"模式 [5] 代码生命周期与维护行为 - 代码演进速度取决于编写时间远近和维护者是否为原作者 [1] - 人类维护者对不同时期代码的四种典型态度:近期自写代码最易改进,他人旧代码最不愿改动 [4] - 遗留代码的本质是支撑代码的"理论"随原作者离开而失传,仅保留低保真表达的代码和文档 [8] 行业解决方案与发展趋势 - 开发者尝试通过精心构造提示、设计上下文窗口和详细注释来弥补AI缺陷 [5] - Chain of Thought技术可能解决AI无状态问题,通过重新激活上下文理解代码 [10] - 未来代码可能更依赖模型推理和提示生成,而非长期维护的静态结构 [5] LLM时代的理论构建探讨 - LLM可能隐含某种尚未被理解的"程序理论",或能从代码中逐步构建理论 [12] - 技术债管理新思路:保存Prompt可帮助理解代码存在原因,优于人类记忆 [10] - 理论掌握权可能转移至写prompt的人而非写代码的人 [12] 行业观点与讨论 - 软件开发本质是开发者集体心智构建的"理论",代码只是其低保真表达 [8] - 人类开发者常通过"时代写法"解释代码,部分确实反映历史约束条件 [9] - 代码提示生成可能成为短期/中期的过渡桥梁,而非长期维护对象 [6]
OpenAI加码写作赛道?阿里最新大模型通用写作能力基准WritingBench,揭秘深度思考能否增进文学表达
量子位· 2025-03-20 18:56
大模型写作评估基准 - 阿里研究团队联合中国人民大学和上海交通大学开源WritingBench评估基准,覆盖6大领域、100个细分场景,包含1000+条评测数据,旨在全面评估生成式写作能力 [3] - 该基准解决了行业两大难题:1) 现有评估局限于单一领域和短文本,商业文书、法律文书等成为盲区 [4][5];2) 传统评估方法与人类判断一致性不足65%,无法适应创意写作等复杂场景 [7][8] - WritingBench采用四阶段人机协同构建流程,耗时三个月完成评测集,支持风格、格式、长度等多维度能力评测 [11][12][16] 动态评估体系创新 - 设计基于写作意图的动态评估方法,模型可针对每个输入自动生成五个评测指标,实现87%的人类一致性得分 [19][20] - 配套训练评分模型,能自适应给出1-10分评分及理由,例如对OpenAI示例从元小说技巧等五个维度评估 [21][25][26] - 对比其他基准,WritingBench数据量达1239条,输入token平均1546,最大19361,覆盖领域和素材来源更广 [17] 模型性能表现 - 基于Qwen开发的32B创作模型在创意型任务上接近顶尖模型R1表现,思维链技术显著提升效果 [3][29] - 实验显示带思维链的32B模型在创意写作中得分8.66,超越同系列Qwen-Max(8.39)和R1(8.55) [30] - 但在效率型写作任务中,深度思考可能引发过度推理和幻觉问题,提升效果有限 [32][33][34] 技术瓶颈与挑战 - 模型存在3000 token长度生成瓶颈,超过该阈值后质量显著下降,小模型易重复,大模型易提前终止 [35][36][37] - 短文本输出仍难以严格遵循长度要求,如Gemini-1.5-Pro在复杂分块需求中失败 [39][40] - 当前先进模型在文学与艺术领域表现不佳,仅OpenAI的o1和Deepseek的R1等少数模型表现突出 [27][28]
速递|微软“去OpenAI化”计划浮出水面,自研AI模型MAI来了
Z Finance· 2025-03-08 17:44
微软自主研发AI推理模型 - 微软正在自主研发人工智能推理模型以抗衡OpenAI并可能向开发者出售这些模型[1] - 公司已在Copilot智能助手产品中测试由xAI、Meta及DeepSeek开发的模型作为OpenAI技术的潜在替代方案[1] - 此举表明微软在深化与OpenAI合作的同时通过技术多元化策略降低对其核心依赖[1] 技术替代与成本优化 - 微软正通过整合内部及第三方AI模型为Microsoft 365 Copilot提供技术支持以突破对OpenAI的单一依赖并降低运营成本[1] - 2023年发布的365 Copilot核心卖点是采用OpenAI的GPT-4大模型[1] - 由Mustafa Suleyman领导的微软AI团队已完成代号为"MAI"的系列模型训练[1] 模型性能与商业化计划 - MAI系列模型在行业通用基准测试中表现已接近OpenAI和Anthropic的顶尖模型[2] - 团队正在开发基于思维链技术的推理模型可能与OpenAI形成直接竞争[2] - 计划今年晚些时候以API形式开放MAI模型使外部开发者能集成至自有应用程序[2] 战略背景与行业趋势 - 技术自主化战略推进正值微软通过早期投资OpenAI在AI军备竞赛中占据先发优势之际[2] - 科技巨头在保持生态合作的同时构建自主技术护城河已成为AI产业发展新常态[2]
晚点独家丨月之暗面探索 o1,跟字节抢来华为刘征瀛
晚点LatePost· 2024-11-28 22:57
编辑丨程曼祺 本月初经历仲裁风波后,月之暗面在 11 月 16 日发布新的 数学模型 k0-math ,当时月之暗面创始人杨植 麟反复提到 "o1":他将 k0-math 的测评评分与 o1 比较,称其思路与 o1 类似——都采用了强化学习和思 维链技术。 o1 是 OpenAI 在今年 9 月发布的新模型,它有更强推理和数学能力。杨植麟曾在 o1 发布后不久的一场演 讲中说,o1 的出现意味着大模型的范式转换:从预测下一个 token 的规模扩展( Next-Token Predictio Scaling)到强化学习的规模扩展(Reinforcement Learning Scaling)。 11 月发布 k0-math 时,杨植麟提了 23 次强化学习,17 次推理,7 次 o1。 文丨王与桐 从成立至今,月之暗面长期被认为是中国大模型创业公司中,技术人才密度颇高的一家。月之暗面现在仍只 有 100 多人,但汇集了杨植麟和周昕宇两位技术背景创始人,杨植麟发表过两篇大语言模型领域重要论文 [1],周昕宇在旷视期间与现在加入另一家大模型独角兽阶跃星辰的张祥雨,一起发表过单篇引用超 9000 次 的卷积神经网络 ...