Workflow
Meta Llama
icon
搜索文档
大模型全员0分!谢赛宁领衔华人团队,最新编程竞赛基准出炉,题目每日更新禁止刷题
量子位· 2025-06-18 17:17
大模型编程能力测试结果 - 参赛大模型在LiveCodeBench Pro测试中全军覆没,通通0分 [1][2] - 测试包含来自IOI、Codeforces和ICPC的竞赛级编程问题,题库每日更新以防止模型"背题" [3][4] - 表现最佳的模型o4-mini-high在中等难度题上的一次通过率仅53%,难题通过率为0% [9] - 即使最好的模型o4-mini-high在工具调用被屏蔽时Elo评分仅2100,远低于大师级2700水平 [10] 测试设计与题库构成 - 测试由奥林匹克获奖者构建,在比赛结束后立即收集题目以避免互联网答案污染 [14] - 题库包含584道顶流竞赛题,分为知识密集型、逻辑密集型和观察密集型三类 [15] - 题目难度通过正态分布自动选择,如Codeforces评分2000分以上归为困难等级 [16] - 数学类题目占比13%,组合数学类11%,动态编程类23%,贪心算法类28% [17] 模型表现分析 - 22款测试模型中,o4-mini-high表现最佳但仍有81.7%未通过率 [12][21] - 模型在知识密集型和逻辑密集型问题表现较好,但在观察密集型问题表现差 [26] - 模型擅长精确实现但算法设计能力弱于人类,常给出看似正确实则错误的解释 [28][29] - 模型对题目示例输入利用不充分,经常无法通过样例测试 [30] - 增加尝试次数(pass@k)可提升中简单题表现,但对难题无效 [33][34] 团队背景 - LiveCodeBench Pro团队超半数成员为华人,主要由奥林匹克竞赛得奖者组成 [40] - 负责人郑子涵曾获ICPC世界总决赛第二名,现为OpenAI实习生 [41][42] - 另一位负责人柴文浩开发了首个长视频理解超大多模态模型MovieChat [44][46] - 团队成员来自纽约大学、华盛顿大学、普林斯顿大学等顶尖院校 [48]
海外科技厂商AI布局与To B Agent进展
2025-06-18 08:54
海外科技厂商 AI 布局与 To B Agent 进展 20250617 摘要 微软 Azure 云服务凭借强大的 GPU 算力及 AI Foundry 平台对多种开源 模型的支持,在 AI 基础设施建设方面具有显著优势,尤其在 ToB 场景 和边缘计算领域表现突出,构建了全面的 AI 开发工具链。 亚马逊主要通过 AWS 云服务推动 AI 发展,侧重于算力支持和图像模型 服务,尤其面向中小企业提供 DeepSeek、LLAMA 等模型的部署方案, 并通过 API 销售云模型。 Meta 近期推出 LLAMA4 并收购 Scale AI,旨在通过优化数据层提升模 型能力,但目前效果尚未显著,其早期在开源领域的贡献为后续发展奠 定基础。 AI Agent 开发的核心壁垒在于垂直领域专家知识和私有数据,工程化解 决方案如 Workflow 管理是关键技术,而生成式 AI 并未引入全新技术, 更多是对已有技术的优化应用。 微软 Copilot 系列产品在 M365 办公场景中应用广泛,但在整合能力和 多模态能力方面发展低于预期,Word 和 Excel 表现较好,PowerPoint 因视觉元素处理能力不足评价较低 ...
OpenAI似乎步子迈太大了
虎嗅· 2025-05-31 17:01
公司动态 - 特拉华州总检察长计划聘请投资银行审查OpenAI的重组计划 [1] - OpenAI收购苹果前首席设计官Jony Ive创立的AI硬件公司io [3] - OpenAI计划在韩国首尔设立办事处并启动人才招聘 ChatGPT在韩国周活跃用户增长4.5倍 韩国成为仅次于美国的付费订阅用户最多国家 [3] - OpenAI已在东京、新加坡、巴黎、布鲁塞尔、伦敦、都柏林等城市设立办公室 首尔办公室将是全球第11个主要城市办公室 [4] 行业竞争 - OpenAI竞对Anthropic年化营收约30亿美元 近期发布Claude Opus 4和Claude Sonnet 4模型 在编程、工具使用等领域基准测试超越OpenAI o3模型 [4] - Claude Opus 4在Agentic coding SWE-bench测试中达到72.5%/79.4% Claude Sonnet 4达到72.7%/80.2% [6] - Claude Opus 4在Graduate-level reasoning测试中达到79.6%/83.3% Claude Sonnet 4达到75.4%/83.8% [7] - DeepSeek R1模型升级后在Live CodeBench平台性能接近OpenAI o3高版本 [9] - Meta宣布"Llama for Startups"计划 鼓励初创企业采用Llama AI模型 Meta AI月活用户突破10亿 [9][10] 战略挑战 - OpenAI同时推进硬件产品开发和全球市场扩张 面临内部转型不稳定和战略投资压力 [4] - 竞争对手模型性能快速提升 OpenAI在模型方面的优势正在缩小 [9] - GPT-5迟迟未发布 引发对公司能否兼顾战略布局与技术研发的质疑 [11]
Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
机器之心· 2025-05-02 12:39
推理模型发展现状 - 著名AI技术博主Sebastian Raschka正在撰写新书《Reasoning From Scratch》,聚焦LLM推理机制实现[2] - 当前LLM的成功主要依赖统计模式识别,而新兴推理技术使其能处理逻辑难题、多步骤算术等复杂任务[5] - OpenAI的o1模型和深度求索的DeepSeek-R1标志着推理能力成为行业焦点[41][44] LLM推理的核心定义 - LLM语境中的推理指模型生成中间步骤(思维链CoT)后输出最终答案的能力[8] - 推理过程可能展示中间步骤,但其底层机制与人类认知存在本质差异[12][13] - 推理与模式匹配的根本区别在于:前者需逻辑推导,后者仅复现训练数据中的统计关联[23][25] LLM训练流程 - 传统训练分两阶段:预训练(TB级文本学习语言模式)和后训练(指令微调+偏好微调)[16][17] - 预训练成本极高(数千GPU运行数月/数百万美元),使模型具备翻译、代码生成等涌现能力[17] - 后训练阶段通过SFT提升任务理解能力,通过偏好微调优化输出风格[20] 模式匹配与逻辑推理对比 - 标准LLM(如GPT-4o)通过高频搭配记忆回答问题(如「德国→柏林」),非真实推理[24] - 面对矛盾前提(「所有鸟都会飞但企鹅不会」),普通LLM依赖训练数据中的文字概率而非逻辑检查[28][30] - 大规模训练使模型能模拟推理行为,但遇到全新题型、复杂推导时仍易出错[36][37] 推理能力提升方法 - 推断时间计算增强:通过思维链等技术在推理阶段提升性能,无需修改模型权重[46] - 强化学习:基于数学证明正确性等客观奖励信号动态优化推理策略[47] - 知识蒸馏:将高性能模型的推理模式迁移至轻量化模型,需专用推理任务数据集[48][49] 推理模型的应用权衡 - 推理模型适用于数学证明、编程等复杂任务,但对翻译、问答等简单任务效率低下[56] - 生成更长中间步骤导致计算成本倍增(API计费按token数量)[57] - 行业趋势显示主流厂商正将推理能力整合至通用模型(如OpenAI计划统一GPT与o系列)[54][55] 实践价值 - 从头实现推理模型可深入理解LLM能力边界与计算成本权衡[51][57] - 深度求索开源方案推动行业技术透明化,降低开发门槛[52] - 专用推理模型需与通用模型配合使用,形成任务适配的技术矩阵[56]
差距仅0.3%!李飞飞:中美AI模型性能基本持平;秘密打造AI iPhone,苹果灵魂设计师的公司要被OpenAI收购丨AI周报
创业邦· 2025-04-12 11:02
以下文章来源于快鲤鱼 ,作者巴里 快鲤鱼 . 创业邦旗下AGI矩阵号,寻找海内外创新性的AGI高成长公司,记录AGI商业领袖的成长轨迹。 全球AI产业周报 为你精选过去一周(4.5-4.11)最值得关注的AI新闻和 国内外热门AI投融资事件 ,帮助大家及时了解全 球AI市场动向。 本周AI热点资讯 国内大事 王小川发布百川智能两周年全员信:减少多余动作,专注医学方向 4月10日,百川智能创始人兼CEO王小川在公司成立两周年之际发布全员信。王小川回顾了过去两年百川 智能的成就与不足,并再次强调公司当前面向医疗领域的技术愿景和业务方向,及其"造医生-改路径-促 医学"路径。王小川表示,公司接下来将在百小应、AI儿科、AI全科和精准医疗四个方面发展应用和服 务。"接下来我们需 要围绕上述方向专注聚焦,减少多余的动作,深度思考,坚定不摇摆;需要减小组织 的复杂度,更扁平、更少层级,让百川的信息和决策更通畅。"(界面新闻) 近期将直播格斗,宇树发布G1搏击视频 4月10日消息,4月10日晚间,宇树发布了人形机器人G1拳击视频。在视频中,宇树除了展现击打固定目 标,即立式沙袋的能力之外,还和人类以及另外一台G1机器人进行 ...