Workflow
QQ浏览器AI浏览器
icon
搜索文档
AI动态汇总:Claude4系列发布,谷歌上线编程智能体Jules
中邮证券· 2025-05-27 21:43
根据提供的研报内容,以下是量化模型与因子的详细总结: 量化模型与构建方式 1. **模型名称:Claude Opus 4** - **模型构建思路**:专为复杂推理与软件开发设计,扩展AI智能体能力边界[12] - **模型具体构建过程**: - 基于Anthropic的底层架构优化,增强跨文件代码理解能力 - 引入记忆文件机制,通过本地存储关键信息提升长期任务连贯性[16] - 采用轻量级思考摘要功能,在5%场景下精简推理链条[19] - **模型评价**:在SWE-bench测试中准确率72.5%,TerminalBench测试43.2%,展现顶尖编码能力[12][16] 2. **模型名称:Claude Sonnet 4** - **模型构建思路**:平衡性能与成本的通用模型,优化指令遵循能力[12] - **模型具体构建过程**: - 基于Sonnet 3.7改进编码和推理模块 - 通过行为控制技术降低系统漏洞利用概率65%[16] - **模型评价**:SWE-bench测试72.7%优于Opus 4,但综合性能稍逊[16] 3. **模型名称:Cosmos-Reason1** - **模型构建思路**:融合物理常识与具身推理,面向自动驾驶/机器人场景[29] - **模型具体构建过程**: - 采用混合Mamba-MLP-Transformer架构,结合ViT视觉编码器[30] - 四阶段训练流程: 1. 130M数据视觉预训练(跨模态对齐) 2. 8M通用监督微调(SFT) 3. 物理AI专项微调(16类知识注入) 4. GRPO算法强化学习优化决策[30] - 公式:奖励机制采用时空谜题自监督生成$$R=\sum_{t=1}^{T}\gamma^{t-1}r_t(s_t,a_t)$$ - **模型评价**:物理常识测试60.2%准确率,具身推理任务性能提升10%[34] 4. **模型名称:Gemini 2.5 Pro** - **模型构建思路**:旗舰级多模态推理模型,扩展上下文窗口至200万token[43] - **模型具体构建过程**: - 引入"Deep Think"并行推理架构,动态调整5%-100%思考强度 - 集成Model Context Protocol SDK降低开源工具链对接门槛[44] - **模型评价**:MMMU测试84.0%,长期记忆准确率83.1%显著优于竞品[44] 5. **模型名称:Devstral** - **模型构建思路**:开源编程专用模型,强化安全对齐与工程级任务处理[38] - **模型具体构建过程**: - 基于Mistral Small 3.1架构,采用Tekken Tokenizer(131,000词汇量) - 零样本训练策略避免SWE-bench过拟合[41] - **模型评价**:SWE-bench Verified得分46.8%,超越前代开源模型6%[39] --- 模型的回测效果 1. **Claude Opus 4** - SWE-bench准确率72.5%[12] - TerminalBench准确率43.2%[12] - 长期记忆准确率83.1%(MRCR 128K测试)[44] 2. **Cosmos-Reason1-7B** - 物理常识基准60.2%准确率[34] - 具身推理基准平均60.7%[34] - 8K视频流推理速度较GPT-4快11倍[34] 3. **Gemini 2.5 Pro** - MMMU得分84.0%[44] - WebDev Arena测试1499.95分(较前代+147)[44] 4. **Devstral** - SWE-bench Verified得分46.8%[39] - 单RTX 4090显卡可部署[39] --- 技术前沿发现 1. **思维链(CoT)对指令遵循的影响** - **构建思路**:通过IFEval/ComplexBench基准测试15种模型的CoT干扰效应[52] - **关键发现**: - CoT导致IFEval准确率平均下降12.3%[54] - 注意力机制显示约束token关注度下降18.7%[60] - **缓解方案**: - 分类器选择性推理提升IFEval准确率7.2%[65] - 自适应推理选择优化ComplexBench表现[64] (注:原文未涉及量化因子相关内容,故未总结该部分)
腾讯大模型落地新路径:智能体协同与知识库升级引领未来
搜狐财经· 2025-05-26 23:56
在近日举行的2025腾讯AI产业应用峰会上,腾讯云智能负责人吴运声深入探讨了腾讯在打造智能体(Agent)产品过程中的技术细节与设计逻辑,揭示了腾 讯如何在这一新兴领域进行布局。 吴运声指出,虽然创建一个智能体在技术层面已不再是难题,但打造既实用又能高效解决业务流中问题的智能体,依然是一个亟待深入研究的重大课题。他 强调,腾讯在智能体产品的开发中,特别注重用户的实际体验。 腾讯还强化了智能体中的问答对功能。由于基础大模型在相同Prompt下可能产生不同的输出结果,因此强化从文档中自动生成准确问答对的能力显得尤为重 要。企业可以对这些问答对进行审核、校验,确保准确性后再发布,从而提高了智能体在企业应用中的可靠性。 吴运声还表示,在ToB场景下,智能体的本质是一种新的应用形态。与传统软件相比,智能体具备自主规划能力,可以根据用户的自然语言指令,自主调用 工具,甚至多个Agent协同完成一个复杂任务。因此,智能体开发需要关注三个核心问题:如何实现更精准地自主规划与执行、如何实现多Agent协同的复杂 任务处理以及如何构建更高效的工具调用机制。 会上,腾讯还宣布了一个重要实践:QQ浏览器升级为AI浏览器,并上线了QB ...