Workflow
强化微调
icon
搜索文档
让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力
机器之心· 2025-05-27 12:11
多模态智能体发展趋势 - 大型推理模型正发展原生智能体能力,包括调用外部工具(如浏览器搜索)和编写/执行代码进行图像操作,实现「图像中的思考」[1] - 开源社区在纯文本智能体(函数调用/工具集成)进展显著,但多模态智能体的图像理解/操作及评估体系仍处早期阶段[1] Visual-ARFT核心能力 - 赋予视觉语言模型(LVLMs)「工具智能体」能力,支持看图理解、动脑推理、动手操作[2] - 具体功能:编写执行Python代码读取图像文本、通过互联网搜索回答多模态多跳问题[2][4] - 训练方法全面开源,含代码、数据和模型[1][5] 技术实现与训练策略 - 基于强化微调(GRPO算法),设计rule-based verifiable reward驱动模型探索工具使用[7] - 仅需几十至1.2k训练数据即可实现多模态智能体能力训练[7] - 任务流程结构化:<think>思考→<search>检索→<code>编程→<answer>结论,形成可解释推理路径[9] 任务场景与评测基准 - 针对两类高难度任务:Agentic Search(多跳问题检索整合)和Agentic Coding(复杂图像修复/分析)[12] - 推出MAT-Bench评测基准,含150道MAT-Search(人工标注)和200道MAT-Coding(自动化构建)任务[9][12] 性能表现 - 在MAT测试中,Visual-ARFT加持的Qwen2.5-VL显著超越baseline和GPT-4o[13] - Qwen2.5-VL-7B+Visual-ARFT在MAT-Coding的Hard任务F1达25.38(较baseline提升13.84)[13] - MAT-Search平均分提升10.28,部分子任务超越GPT-4o达18.56[13] - OpenAI-o3表现断层领先,MAT-Coding的F1达72.99[13] 泛化能力验证 - 在Out of Domain的MultihopQA测试(如HotpotQA、MuSiQue)中,仅用几十条数据训练的模型性能显著提升[14]
刚刚,ChatGPT的深度研究可以连接GitHub了!网友:这是真·RAG
量子位· 2025-05-09 08:16
ChatGPT深度研究功能更新 - ChatGPT推出深度研究功能,可直接连接GitHub,实时分析代码库并生成报告,内容包括项目目的、架构、技术栈等[1] - 用户可通过输入框底部"GitHub"选项搜索指定仓库,例如输入"codex"可连接18个相关repos[2][3] - 功能被网友评价为"真·RAG",目前处于测试阶段,优先面向Team用户开放,后续将扩展至Plus、Pro用户[4][5] GitHub联动技术细节 - 连接后ChatGPT可直接读取代码库内容(代码、README等),自动引用片段生成答案[8] - 支持通过设置菜单手动配置GitHub连接器,可调整访问权限范围[9][10] - 系统自动生成搜索关键词(如"file upload handler backend"),采用多方式检索确保结果相关性[11][12][13] 数据使用政策与新增功能 - 企业级产品默认禁用用户数据训练模型,个人版(免费/Plus/Pro)在开启选项后可能用于模型改进[14] - 同步发布强化微调(RFT)功能,基于思维链推理提升复杂领域表现,已应用于税务会计模型o4-mini[15] - 当前限制:代码库同步需5分钟延迟,仅支持仓库名称搜索,不支持文件名检索[16]
深度|ARR过亿美金AI招聘00后创始人:未来最有价值的是拥有“反常识性观点”和“品味”的人,人们最应该优化自己的适应性
Z Potentials· 2025-04-24 11:10
AI赋能人才评估 - Mercor通过训练模型预测人才胜任力 准确率超越人类判断 实现招聘流程自动化 所有顶尖AI实验室已采用该系统招聘数千名工作人员[5] - 评估范围覆盖所有经济价值技能 包括咨询 软件工程 视频游戏等领域 基础模型公司和应用层公司均需上游评估任务支持[6] - 人类数据市场正经历从众包模式向筛选顶尖人才的转变 评估重点转向经济价值工作而非零样本测试[7][8] 人才评估技术演进 - 模型在文本测量领域表现超人类 可处理高体量标准化流程 但对多模态信号理解仍需发展[11][12] - 线上公开内容如GitHub Dribbble等蕴含被忽视的人才信号 模型可高效挖掘这些数据[14] - 国际背景与专业热情等隐藏信号可通过模型识别 解决人才匹配低效问题[15][16] 劳动力市场变革 - 知识型工作价值呈幂律分布 模型可识别90百分位高绩效者 显著影响企业决策[9] - 客服 招聘等领域已出现岗位替代 实体世界自动化速度将慢于数字世界[18][20] - 未来劳动力市场将碎片化转向全球化 实现人与Agent协同工作匹配[47][48] 评估系统构建 - 需按行业创建Agent评估任务 从同质化领域如客服切入 逐步扩展至复杂工作[26] - 强化微调(RFT)数据效率极高 仅需数百样本即可定制模型 优于监督式微调[42][43] - 评估系统需关注经济价值工作 如软件工程师的协调能力 而非单一任务表现[25] 企业招聘策略 - 早期阶段应优先人才密度而非速度 数据驱动识别关键人才特征[48] - 构建"数据飞轮"机制 通过绩效反馈优化招聘决策 形成正向循环[46] - 统一评估体系受限于技术 当前LMS能力突破使自动化匹配成为可能[49]