强化微调 - 财报，业绩电话会，研报，新闻

强化微调

搜索文档

让视觉语言模型像o3一样动手搜索、写代码！Visual ARFT实现多模态智能体能力

机器之心· 2025-05-27 12:11

多模态智能体发展趋势 - 大型推理模型正发展原生智能体能力，包括调用外部工具（如浏览器搜索）和编写/执行代码进行图像操作，实现「图像中的思考」[1] - 开源社区在纯文本智能体（函数调用/工具集成）进展显著，但多模态智能体的图像理解/操作及评估体系仍处早期阶段[1] Visual-ARFT核心能力 - 赋予视觉语言模型（LVLMs）「工具智能体」能力，支持看图理解、动脑推理、动手操作[2] - 具体功能：编写执行Python代码读取图像文本、通过互联网搜索回答多模态多跳问题[2][4] - 训练方法全面开源，含代码、数据和模型[1][5] 技术实现与训练策略 - 基于强化微调（GRPO算法），设计rule-based verifiable reward驱动模型探索工具使用[7] - 仅需几十至1.2k训练数据即可实现多模态智能体能力训练[7] - 任务流程结构化：<think>思考→<search>检索→<code>编程→<answer>结论，形成可解释推理路径[9] 任务场景与评测基准 - 针对两类高难度任务：Agentic Search（多跳问题检索整合）和Agentic Coding（复杂图像修复/分析）[12] - 推出MAT-Bench评测基准，含150道MAT-Search（人工标注）和200道MAT-Coding（自动化构建）任务[9][12] 性能表现 - 在MAT测试中，Visual-ARFT加持的Qwen2.5-VL显著超越baseline和GPT-4o[13] - Qwen2.5-VL-7B+Visual-ARFT在MAT-Coding的Hard任务F1达25.38（较baseline提升13.84）[13] - MAT-Search平均分提升10.28，部分子任务超越GPT-4o达18.56[13] - OpenAI-o3表现断层领先，MAT-Coding的F1达72.99[13] 泛化能力验证 - 在Out of Domain的MultihopQA测试（如HotpotQA、MuSiQue）中，仅用几十条数据训练的模型性能显著提升[14]

多模态智能体能力

强化微调

Artificial Intelligence

Artificial Intelligence

Visual-ARFT

MAT-Bench

OpenAI-o3

刚刚，ChatGPT的深度研究可以连接GitHub了！网友：这是真·RAG

量子位· 2025-05-09 08:16

ChatGPT深度研究功能更新 - ChatGPT推出深度研究功能，可直接连接GitHub，实时分析代码库并生成报告，内容包括项目目的、架构、技术栈等[1] - 用户可通过输入框底部"GitHub"选项搜索指定仓库，例如输入"codex"可连接18个相关repos[2][3] - 功能被网友评价为"真·RAG"，目前处于测试阶段，优先面向Team用户开放，后续将扩展至Plus、Pro用户[4][5] GitHub联动技术细节 - 连接后ChatGPT可直接读取代码库内容（代码、README等），自动引用片段生成答案[8] - 支持通过设置菜单手动配置GitHub连接器，可调整访问权限范围[9][10] - 系统自动生成搜索关键词（如"file upload handler backend"），采用多方式检索确保结果相关性[11][12][13] 数据使用政策与新增功能 - 企业级产品默认禁用用户数据训练模型，个人版（免费/Plus/Pro）在开启选项后可能用于模型改进[14] - 同步发布强化微调（RFT）功能，基于思维链推理提升复杂领域表现，已应用于税务会计模型o4-mini[15] - 当前限制：代码库同步需5分钟延迟，仅支持仓库名称搜索，不支持文件名检索[16]

强化微调

RAG

Artificial Intelligence

ChatGPT

GitHub

强化微调（Reinforcement fine - tuning

强化微调

RAG

Artificial Intelligence

ChatGPT

GitHub

强化微调（Reinforcement fine - tuning

深度｜ARR过亿美金AI招聘00后创始人：未来最有价值的是拥有“反常识性观点”和“品味”的人，人们最应该优化自己的适应性

Z Potentials· 2025-04-24 11:10

AI赋能人才评估 - Mercor通过训练模型预测人才胜任力准确率超越人类判断实现招聘流程自动化所有顶尖AI实验室已采用该系统招聘数千名工作人员[5] - 评估范围覆盖所有经济价值技能包括咨询软件工程视频游戏等领域基础模型公司和应用层公司均需上游评估任务支持[6] - 人类数据市场正经历从众包模式向筛选顶尖人才的转变评估重点转向经济价值工作而非零样本测试[7][8] 人才评估技术演进 - 模型在文本测量领域表现超人类可处理高体量标准化流程但对多模态信号理解仍需发展[11][12] - 线上公开内容如GitHub Dribbble等蕴含被忽视的人才信号模型可高效挖掘这些数据[14] - 国际背景与专业热情等隐藏信号可通过模型识别解决人才匹配低效问题[15][16] 劳动力市场变革 - 知识型工作价值呈幂律分布模型可识别90百分位高绩效者显著影响企业决策[9] - 客服招聘等领域已出现岗位替代实体世界自动化速度将慢于数字世界[18][20] - 未来劳动力市场将碎片化转向全球化实现人与Agent协同工作匹配[47][48] 评估系统构建 - 需按行业创建Agent评估任务从同质化领域如客服切入逐步扩展至复杂工作[26] - 强化微调(RFT)数据效率极高仅需数百样本即可定制模型优于监督式微调[42][43] - 评估系统需关注经济价值工作如软件工程师的协调能力而非单一任务表现[25] 企业招聘策略 - 早期阶段应优先人才密度而非速度数据驱动识别关键人才特征[48] - 构建"数据飞轮"机制通过绩效反馈优化招聘决策形成正向循环[46] - 统一评估体系受限于技术当前LMS能力突破使自动化匹配成为可能[49]