Workflow
Devstral
icon
搜索文档
AI动态汇总:Claude4系列发布,谷歌上线编程智能体Jules
中邮证券· 2025-05-27 21:43
根据提供的研报内容,以下是量化模型与因子的详细总结: 量化模型与构建方式 1. **模型名称:Claude Opus 4** - **模型构建思路**:专为复杂推理与软件开发设计,扩展AI智能体能力边界[12] - **模型具体构建过程**: - 基于Anthropic的底层架构优化,增强跨文件代码理解能力 - 引入记忆文件机制,通过本地存储关键信息提升长期任务连贯性[16] - 采用轻量级思考摘要功能,在5%场景下精简推理链条[19] - **模型评价**:在SWE-bench测试中准确率72.5%,TerminalBench测试43.2%,展现顶尖编码能力[12][16] 2. **模型名称:Claude Sonnet 4** - **模型构建思路**:平衡性能与成本的通用模型,优化指令遵循能力[12] - **模型具体构建过程**: - 基于Sonnet 3.7改进编码和推理模块 - 通过行为控制技术降低系统漏洞利用概率65%[16] - **模型评价**:SWE-bench测试72.7%优于Opus 4,但综合性能稍逊[16] 3. **模型名称:Cosmos-Reason1** - **模型构建思路**:融合物理常识与具身推理,面向自动驾驶/机器人场景[29] - **模型具体构建过程**: - 采用混合Mamba-MLP-Transformer架构,结合ViT视觉编码器[30] - 四阶段训练流程: 1. 130M数据视觉预训练(跨模态对齐) 2. 8M通用监督微调(SFT) 3. 物理AI专项微调(16类知识注入) 4. GRPO算法强化学习优化决策[30] - 公式:奖励机制采用时空谜题自监督生成$$R=\sum_{t=1}^{T}\gamma^{t-1}r_t(s_t,a_t)$$ - **模型评价**:物理常识测试60.2%准确率,具身推理任务性能提升10%[34] 4. **模型名称:Gemini 2.5 Pro** - **模型构建思路**:旗舰级多模态推理模型,扩展上下文窗口至200万token[43] - **模型具体构建过程**: - 引入"Deep Think"并行推理架构,动态调整5%-100%思考强度 - 集成Model Context Protocol SDK降低开源工具链对接门槛[44] - **模型评价**:MMMU测试84.0%,长期记忆准确率83.1%显著优于竞品[44] 5. **模型名称:Devstral** - **模型构建思路**:开源编程专用模型,强化安全对齐与工程级任务处理[38] - **模型具体构建过程**: - 基于Mistral Small 3.1架构,采用Tekken Tokenizer(131,000词汇量) - 零样本训练策略避免SWE-bench过拟合[41] - **模型评价**:SWE-bench Verified得分46.8%,超越前代开源模型6%[39] --- 模型的回测效果 1. **Claude Opus 4** - SWE-bench准确率72.5%[12] - TerminalBench准确率43.2%[12] - 长期记忆准确率83.1%(MRCR 128K测试)[44] 2. **Cosmos-Reason1-7B** - 物理常识基准60.2%准确率[34] - 具身推理基准平均60.7%[34] - 8K视频流推理速度较GPT-4快11倍[34] 3. **Gemini 2.5 Pro** - MMMU得分84.0%[44] - WebDev Arena测试1499.95分(较前代+147)[44] 4. **Devstral** - SWE-bench Verified得分46.8%[39] - 单RTX 4090显卡可部署[39] --- 技术前沿发现 1. **思维链(CoT)对指令遵循的影响** - **构建思路**:通过IFEval/ComplexBench基准测试15种模型的CoT干扰效应[52] - **关键发现**: - CoT导致IFEval准确率平均下降12.3%[54] - 注意力机制显示约束token关注度下降18.7%[60] - **缓解方案**: - 分类器选择性推理提升IFEval准确率7.2%[65] - 自适应推理选择优化ComplexBench表现[64] (注:原文未涉及量化因子相关内容,故未总结该部分)
腾讯研究院AI速递 20250523
腾讯研究院· 2025-05-22 23:09
OpenAI技术更新 - Responses API新增MCP服务支持,开发者可简化外部服务连接流程,无需手动函数调用[1] - 新版API强化安全控制,通过allowed_tools参数和权限管理防止工具滥用[1] - 新增图像生成、Code Interpreter、文件搜索功能,并引入后台模式等新特性[1] 微软开源项目 - 发布Web Agent项目Magentic-UI,支持自动浏览网页和代码操作,用户可实时监控干预[2] - 采用协同规划和执行机制,生成任务计划需用户确认,集成神经样式引擎等创新技术[2] Mistral开源模型 - 发布240亿参数模型Devstral,可在RTX 4090或32GB Mac上运行,SWE-Bench测试得分46.8%超越GPT-4.1-mini[3] - 采用Apache 2.0许可证,商用定价为每百万输入Token 0.10美元,输出Token 0.30美元[3] xAI实时数据API - 推出Live Search API为Grok AI提供实时数据访问,支持X平台和网页内容检索[4][5] - 提供搜索控制功能如结果数量限制和时间范围指定,结合DeepSearch展示推理过程[5] OpenAI硬件布局 - 以65亿美元收购前苹果设计官Jony Ive的硬件团队io,开发AI耳机和可穿戴设备,预计2026年发布[6] - 关联公司LoveFrom将承担ChatGPT界面设计,Ive称此为职业生涯最重要工作[6] 昆仑万维AI办公产品 - 发布天工超级智能体,集成5个专家智能体,支持文档、PPT、表格生成,成本为OpenAI的40%[7] - 基于deep research技术,支持信息溯源和个人知识库构建,已开源相关框架[7] 微软大气AI模型 - 推出大气模型Aurora,计算速度比IFS数值预报系统快5000倍,训练周期仅4-8周[8] - 在空气质量、热带气旋预测中表现优异,采用3D Swin Transformer架构[8] Gartner智能应用原则 - 提出智能应用五大原则:自适应体验、嵌入式智能、自主编排、互联数据和可组合架构[9] - 强调AI需深度嵌入业务逻辑,实现跨系统自然语言交互和自动化流程优化[9] AI编程市场趋势 - AI Coding市场价值约3万亿美元,开发者角色将向产品经理或QA工程师转变[10] - 新范式降低编程门槛,但系统架构等专业知识仍为软件开发核心[10]
性能碾压GPT-4.1-mini!Mistral开源Devstral,还能在笔记本上跑
机器之心· 2025-05-22 18:25
开源AI模型Devstral发布 - 法国AI初创公司Mistral与开源初创公司All Hands AI合作发布全新开源语言模型Devstral,拥有240亿个参数 [2] - 该模型比许多竞争对手的模型更小,所需算力更低 [2] - 模型根据宽松的Apache 2.0许可证免费提供,允许不受限制地部署、修改和商业化 [4] 技术特点与性能 - Devstral可在单块RTX 4090显卡或配备32GB RAM的Mac上运行,适合本地部署和设备端使用 [1][3] - 专门设计用于解决现实世界软件工程问题,能在大型代码库中进行上下文关联和错误识别 [4][5] - 在SWE-Bench Verified基准测试中取得46.8%的得分,领先所有开源模型和部分闭源模型 [6] - 比GPT-4.1-mini高出20多个百分点 [6] - 在OpenHands测试框架下表现优于Deepseek-V3-0324(671B)和Qwen3 232B-A22B等更大规模模型 [9] 商业化与访问 - 通过Mistral的Le Platforme API提供访问,型号为devstral-small-2505 [12] - 定价为每百万输入Token 0.10美元,每百万输出Token 0.30美元 [12]
24B模型编程超DeepSeek全家桶,32G内存苹果电脑就能跑,专门针对真实GitHub Issue训练
量子位· 2025-05-22 11:21
Mistral AI发布开源编程模型Devstral - Mistral AI与All Hands AI合作推出最新开源编程模型Devstral,在软件工程任务上表现优异,超过DeepSeek全家桶和Qwen3 235B [2] - Devstral参数规模为24B,可在单卡RTX4090或32G内存的Mac上运行,具有较高的硬件兼容性 [3] - 该模型专为解决现实世界软件工程问题而设计,突破了传统大模型仅擅长碎片化编程任务的局限 [4] Devstral的技术特点与性能 - 模型针对真实GitHub Issue进行训练,专注于大型代码库的上下文理解、组件关系识别和复杂函数错误检测 [5] - 在包含500个真实GitHub Issue的SWE-Bench Verified基准测试中,Devstral成为开源SOTA,并优于许多同等参数规模的闭源模型 [5] - 使用Apache2.0开源许可,相比前代Codestral模型放宽了使用限制 [7] 实际应用表现 - 在开发待办事项列表APP时,模型会主动询问用户技术栈偏好,展现出交互式开发能力 [9] - 开发者成功为模型添加视觉支持并复刻Claude网页版界面,证明其可扩展性 [12][14] - 模型可能是基于Mistral-Small微调而来,但官方移除了视觉编码器 [16] 合作方与生态建设 - 合作方All Hands AI专注于智能体框架开发,其口号是"少写代码,多做事" [17] - Devstral可与OpenHands或SWE-Agent等智能体框架配合使用,支持代码修改、命令执行、网页浏览等完整开发流程 [18] - OpenHands框架自去年4月推出以来已在GitHub获得5万+标星 [23] 未来发展 - Devstral目前处于研究预览版状态,团队计划在未来几周内发布更强大的代理编码模型 [22] - 模型已开放下载,社区可立即体验其功能 [23]