Fine - tuning

搜索文档

程序员的那些事· 2025-05-25 11:35

开年AI应用大火，让" 内卷"、"取代"、"裁员" 等词频频威胁着技术人的职业命运。大批传统技术岗被降薪淘汰，大厂却一边裁员一边 60K*16薪招AI大模型人才。从模型微调到AI 应用场景化落地，每一个环节都在重构技术人的核心竞争力！很多人纷纷入局，不是跟风，是真看到了价值优势！ 1、窗口期，门槛低。简历上只要能力需求达标（AI应用技术+项目经验），年龄并不是硬性要求； 2，技术托底，上手更快。比如前后端开发/测试经验，在大模型落地环节就特别吃香（用 RAG提升问答准确性等）； 3，垂直领域经验加持。能更精准定位模型落地痛点（懂技术+业务），比如把Transformer嫁接到医保风控系统、用RAG改造电商智能客服 …… 即使没有转型需求，用 AI工具为工作赋能/提效，也已经成为80%公司要求的必备技能！（用 Cursor 编程）现在阿里、字节等大厂招人都有个共识：对AI应用加速落地的紧迫性，让老板们不再只关注代码写得溜不溜，缺少AI大模型经验（不是单纯会用 API ），通过面试将变得困难重重。与其坐等被行业淘汰，不如主动补齐那30 ...

Artificial Intelligence

Artificial Intelligence

Artificial Intelligence

OpenAI教你做Agent：2025年，评估标准和如何产品化是Agent的重点

Founder Park· 2025-04-25 21:29

AI Agent技术演进 - 2024年至2025年AI agent的行动能力和交互方式发生质变，头部模型厂商将agentic能力融入模型，成为模型竞赛重点之一 [2] - agent获取信息方式从单次搜索决策模式转变为完全自主的Deep Research模式，能同时打开多个网页节省时间 [3] - OpenAI判断agent可调用的工具数量将在几个月内从10个量级扩展到100个量级 [4] - multi agent系统具备更高可控性和优化潜力，通过任务分拆提升整体工作效率 [5] - vertical agent将直接受益于multi-agent系统发展 [6] 开发者工具与评估 - 开发者需要构建agent评估微调飞轮，通过强化微调能力让模型找到正确tool use路径 [7] - 评估器需能将模型输出与权威资料对比或执行代码验证数学正确性，而非简单字符串比对 [8] - 强化微调方法可推动模型在特定行业深入应用，实现专业化能力提升 [20] - 目前AI领域核心问题是评分机制，如何构建高质量任务和评分器成为重要课题 [21] Computer Use创新 - Computer Use处于早期阶段，VM(虚拟机)需要开发者填补空白，可能出现专门做iPhone VM的公司 [10] - computer use应用场景包括无API的传统软件系统自动化，如医疗行业手工操作和Google Maps街景分析 [22] - BrowserBase和Scrapybara等公司提供computer use模型托管服务，开发者可便捷访问底层控制 [25][26] - Arc浏览器开发的Dia项目将agent深度集成到浏览器中，成为浏览器本身的一部分 [29] 开发者实践与API设计 - multi agent系统通过任务分拆使调试更独立，降低修改风险 [31][33] - OpenAI采用"阶梯式API"设计理念，平衡易用性与可定制性，如向量搜索默认配置可逐步调整 [34] - Assistants API的tool use功能(如文件搜索)找到市场契合点，但使用门槛过高需优化 [36] - Responses API优化多轮交互体验，与MCP生态互补，需深入思考如何更好整合 [37] 行业应用与前景 - AI infra公司垂直化发展仍有市场需求，如Runloop AI为AI coding初创企业提供测试虚拟机 [38] - computer use在网络安全领域应用，如探测网站系统漏洞 [42] - 模型在科学研究领域应用被低估，可能加速科研进程 [53] - 旅游行业存在创新机会，期待AI agent打破传统格局 [56]

Artificial Intelligence

Artificial Intelligence

Responses API

深度｜ARR过亿美金AI招聘00后创始人：未来最有价值的是拥有“反常识性观点”和“品味”的人，人们最应该优化自己的适应性

Z Potentials· 2025-04-24 11:10

图片来源： No Priors Z Highlights Sarah Guo：那这些实验室现在主要在招聘什么样的技能和职位呢？ Brendan Foody：实际上，是所有具有经济价值的技能。因为强化学习的效率越来越高，只要你能设计出评估任务（evals），模型就能学习并提升对应的能力。所以，凡是我们希望LMS精通的能人类数据市场正经历一次巨大变革。这个市场原来是众包模式，即找很多低中技能的人员为早期ChatGPT那种模型写些语法勉强正确的句子。但现在正转向"筛选"问题：要找到世界上最顶尖的人才，与研究人员一起合作，推动模型能力的边界。我认为其中最重要的一点是，过去的大多数评估任务都是"零样本"测试，比如说一条测试题目对一个模型。这种测试可能很学术化。但我们现在真正需要评估的是"经济上有价值的工作"。比如一个软件工程师的实际工作远不只是写个PR。他还要与多个相关方协调：理解产品经理的需求，它是如何与各个团队的优先级匹配的，以及这些怎么最终落实到实际工作产出上。我们未来会有这些Agent来承担目前由员工执行的各类角色，它们会与人类员工并肩工作，而人类员工也会帮助构建这些评估任务。我 ...

Artificial Intelligence

Reinforcement Fine - Tuning (RFT)

Supervised Fine - Tuning (SFT)

Universal Basic Income (UBI)

Artificial Intelligence

Agent

Artificial Intelligence

Reinforcement Fine - Tuning (RFT)

Supervised Fine - Tuning (SFT)

Universal Basic Income (UBI)

Artificial Intelligence

Agent

OpenAI：computer use 处于 GPT-2 阶段，模型公司的使命是让 agent 产品化

海外独角兽· 2025-04-23 20:41

AI Agent 技术发展 - 2025年AI agent在信息获取方式和工作流上发生重大变化，从单次搜索决策模式转变为完全自主的Deep Research模式，能同时打开多个网页并重新评估立场 [2] - Agent可调用工具数量将在几个月内从10个量级扩展到100个量级，模型将自主判断工具调用路径 [2][8] - Multi-agent系统通过任务分拆提升效率，每个agent专注特定子任务，使调试更独立且风险更低 [3][17] 技术突破与创新 - Chain of Thought与tool use结合使agent能在推理中自主调整工具调用方向，摆脱固定工作流限制 [8][29] - Computer Use处于早期阶段，虚拟机(VM)技术将成为创业机会，可能出现针对iOS等操作系统的专用VM公司 [5][12][25] - 评估微调飞轮成为关键，开发者需构建领域特定评估器验证模型输出的数学正确性和权威性 [4][9] 行业应用与生态 - Vertical agent将直接受益于multi-agent系统，在客户服务等领域形成专业化分工架构 [3][8] - 医疗和法律行业尝试用computer use自动化传统手工操作，如跨应用切换和Google Maps街景分析 [10][12] - BrowserBase和Scrapybara等公司构建computer use基础设施，提供浏览器自动化和远程桌面托管服务 [12] 开发者工具与API演进 - OpenAI推出阶梯式API设计，基础调用仅需4行代码，同时支持50+可配置参数满足高阶需求 [17][19] - Assistants API的tool use功能获市场认可，但使用门槛过高，新版将融合Chat Completions API的易用性 [20] - Responses API支持多轮交互和多重输出，与MCP生态形成互补，强化工具集成能力 [20][21] 未来趋势与挑战 - Agent将深度融入日常产品，如浏览器集成和自动化重复任务，实现"无处不在"的交互 [6][15] - 模型运行时间需从分钟级扩展到小时级以处理复杂任务，算力提升是关键突破点 [8][29] - 科学研究和机器人技术是被低估的应用领域，O系列模型可能加速科研进程 [30][31] 企业实践建议 - 建议企业优先构建内部multi-agent系统解决实际问题，为未来对接公共互联网做准备 [8][28] - AI初创公司应聚焦工作流编排，通过强化微调和CoT工具调用释放模型潜力 [29][32] - 基础设施领域存在垂直机会，如Runloop AI提供测试虚拟机，AIOps公司管理prompt和API计费 [21][23]

Artificial Intelligence

Artificial Intelligence