Workflow
推理
icon
搜索文档
新版Claude曝光:“极限推理”成最大亮点
量子位· 2025-05-15 12:26
金磊 发自 凹非寺 量子位 | 公众号 QbitAI O家(OpenAI)刚免费上线GPT-4.1,A家(Anthropic)这边也被曝出新消息—— 新版 Claude Sonnet 和 Claude Opus ,已经在路上了! 这一消息来自The Information,根据它的说法,新版模型最大的亮点,就是 "极限推理" (Extreme reasoning)。 简单来说,这个新功能是通过在推理和工具使用之间建立动态循环,能够更智能地处理问题。 预计新版模型将在 未来几周 内发布。 接下来,我们深入了解一下这个新功能。 可以"极限推理"的Claude 正如刚才我们提到的,这个功能并不是简单地回答问题。 例如模型在遇到困难时不会直接给出答案,而是会 暂停、重新评估 问题,并在必要时调整策略。 模型能够结合上下文进行深度反思,而不仅仅是基于统计的语言生成。 这种协作式推理,让新模型更接近于人类协作者的思维方式,能够像人类一样进行推理,而不仅仅是作为"计算器"。 不过毕竟爆料,有网友对此持怀疑态度,认为有炒作的嫌疑。 但也有网友回应称,这是来自The Information的消息,还是比较靠谱的信源。 确实有个 ...
新鲜早科技丨雷军微博开启评论限制;谷歌推出革命性AI编程工具;Manus母公司辟谣融资消息
21世纪经济报道· 2025-05-15 10:05
巨头动向 - 小米集团创始人雷军设置微博评论限制,仅允许关注100天以上的粉丝评论,旨在防止水军干扰[2] - 谷歌DeepMind团队推出革命性AI编程工具AlphaEvolve,基于Gemini 2.0大语言模型,能自主生成、改进算法代码[2] - 英伟达CEO黄仁勋2025财年薪酬增长46%至近5000万美元,主要因股票奖励价值上升[3] - 腾讯成立电商产品部,负责探索微信内交易模式,加速发展交易基建及生态[3] 融资与资本运作 - 蝴蝶效应公司否认Manus母公司拟融资1亿美元的消息,称目前专注于产品[3] - 微分智飞完成数千万元天使轮及天使+轮融资,资金将用于加速飞行具身智能领域创新[7] 产品与技术 - 小米申请注册"XIAOMI MIMO"商标,涉及运输工具、科学仪器等类别,该模型为小米首个推理大模型[4] - 苹果计划为Vision Pro头显添加眼动滚屏功能,利用现有眼球追踪硬件提升交互体验[8] - 阿里巴巴开源视频生成与编辑模型通义万相Wan2.1-VACE,支持多种视频生成和编辑能力[8] 市场与销售 - 苹果下调iPhone 16 Pro系列价格,最高降价2500元,可能为"618"大促做准备[4] - 索尼预计美国关税将造成1000亿日元(7亿美元)影响,导致营业利润增长预期落空[4][5] 行业趋势 - IDC预测中国AR/VR市场2024-2029年复合增长率达41.1%,增速全球第一[5] - 腾讯2025年Q1营收1800亿元,同比增长13%,微信及WeChat月活突破14亿[6] 公司治理 - 特斯拉董事会成立特别委员会研究马斯克薪酬问题,可能提出新的股票期权方案[5]
锦秋基金臧天宇:2025年AI创投趋势
锦秋集· 2025-05-14 18:02
2025年5月9日,在剑桥中国AI协会、锦秋基金、清华大学通用人工智能协会及创协联合举办的分享活动上,锦秋基金合伙人臧天宇做了"2025AI创投趋势"的主题分 享。结合锦秋基金的投资实践,总结了锦秋基金当前AI产业发展阶段的投资逻辑、重点关注领域以及对未来趋势的判断。 他认为: 01 国内AI投资趋势观察 锦秋基金作为国内非常活跃的机构,我们的投资组合可以作为一个观察国内AI投资趋势的小样本窗口。 以下是我们对过去半年多所投项目进行的行业和领域分类统计。 底层算力与具身智能同样重要。 另外两个占比超过10%的领域,一个是底层的算力,它是推动模型训练和推理的基础要素,可谓AI的"能源"。 另一个是目前无论在 中国还是美国都非常火热的"Physical AI",即具身智能领域。 若将时间拨回2023年,当时主要的投资无论是从数量还是分布上,都集中在模型本身,尤其是大语言模型(LLM)的投资,国内的"六小龙"都获得了大量资金。 但 进入2024年下半年及2025年,随着基础模型能力的成熟,大家的投资关注重心更多地转移到了应用等方向。 进入2024及2025年,随着基础模型能力的成熟,AI领域的投资重心已明显转向应用 ...
小米申请推理大模型MiMo商标
快讯· 2025-05-14 15:00
小米科技商标申请动态 - 公司近日申请注册多枚"XIAOMI MIMO"商标 国际分类涵盖运输工具 科学仪器 通讯服务等领域 当前商标状态均为等待实质审查 [1] - Xiaomi MiMo是公司首个推理大模型 采用联动预训练到后训练技术 旨在全面提升推理能力 [1] - 该模型计划于2025年4月30日开源 [1] 人工智能领域布局 - 此次商标申请显示公司正在加强在AI推理大模型领域的技术储备 [1] - 模型技术路径明确 通过预训练与后训练联动优化推理性能 [1] - 开源计划表明公司可能采取开放生态策略推动技术应用 [1]
看图猜位置不输o3!字节发布Seed1.5-VL多模态推理模型,在60个主流基准测试中拿下38项第一
量子位· 2025-05-14 14:07
模型性能表现 - 在60个主流基准测试中拿下38项第一,包括19项视频基准测试中的14项和7项GUI智能体任务中的3项 [1][32] - 在复杂谜题推理、OCR、图表理解、3D空间理解等方面表现出色 [3] - 在GUI界面操作和游戏场景中显著优于OpenAI的CUA和Claude 3.7等模型 [10][34] - 在内部测试中尤其在视觉推理、文档理解、3D空间理解等方面表现出色 [36] 模型架构 - 由532M视觉编码器+200亿活跃参数组成 [1][12] - 核心组件包括SeedViT(图像视频编码)、MLP适配器(视觉特征投射)和大语言模型(多模态输入推理) [13] - 支持多种分辨率图像输入并通过原生分辨率变换保留细节 [14] - 视频处理采用动态帧分辨率采样策略 [14] - 引入时间戳标记增强时间信息感知能力 [15] 训练方法 - 使用3万亿个多样化高质量多模态标注数据 [18] - 预训练分为三个阶段:MLP适配器对齐、视觉定位OCR能力掌握、视频理解和复杂推理任务适应 [19] - 后训练采用监督微调和强化学习技术,包括高质量指令数据微调和PPO算法训练 [24][25] - 开发混合并行化、工作负载平衡等优化技术提高训练吞吐量并降低成本 [30][35] 实测表现 - 能准确识别图像中物体数量,如区分黑猫和影子 [4] - 能处理长度惊人、中英混杂的消费小票并转换为表格 [8] - 在"看图找地理位置"测试中表现接近行业领先水平,误差在160-440公里 [39][40][41] 行业影响 - 该轻量级模型以较小参数量达到行业顶尖水平 [1] - 在多项任务上超越OpenAI、Claude等主流模型 [32][34][36] - 技术报告和模型已公开,可在Hugging Face在线体验 [2][42]
叶子豪、陈天奇等人开源项目FlashInfer入选,MLSys2025最佳论文奖公布
机器之心· 2025-05-14 12:36
核心观点 - 国际系统领域顶会 MLSys 2025 最佳论文奖由两篇华人主导的论文获得,分别是华盛顿大学等机构合作的《FlashInfer: Efficient and Customizable Attention Engine for LLM Inference Serving》和瑞典查尔摩斯理工大学的《The Hidden Bloat in Machine Learning Systems》[1] - FlashInfer 是一个高效可定制的大语言模型注意力推理引擎,其技术已被集成到多个主流项目中[2][5] - 另一篇获奖论文提出了 Negativa-ML 方法,可显著减少机器学习系统中的代码臃肿问题[31][32] FlashInfer 论文 项目背景 - FlashInfer 是华盛顿大学、卡耐基梅隆大学和 OctoAI 合作的研究项目,旨在创建灵活的大语言模型推理内核库[4] - 项目提供多种 LLM GPU 内核的高性能实现,包括 FlashAttention、SparseAttention 等[4] - 首个适用于 DeepSeek MLA 的 Blackwell 内核也出自 FlashInfer[5] 技术优势 - 与当前最先进的 LLM 部署方案相比,FlashInfer 在多种场景下显著提升性能: - token 间延迟减少 29% 至 69%[7] - 长上下文推理任务延迟降低 28% 至 30%[7] - 并行生成场景推理速度提升 13% 至 17%[7] - 采用块稀疏行格式(BSR)存储键值缓存,支持动态配置块大小[16] - 兼容 NVIDIA Turing 到 Hopper 全系架构,针对不同硬件采用优化算法[17] 系统设计 - 通过 JIT 编译支持自定义注意力变体,用户只需定义函数子模块即可生成优化内核[20][21] - 采用 Plan/Run 模式处理不规则负载,借鉴 Inspector-Executor 模式[26] - 提供面向用户的 API,支持动态选择最优 CUDAGraph 执行[23] The Hidden Bloat in Machine Learning Systems 论文 研究内容 - 提出 Negativa-ML 方法,可分析 ML 框架共享库并识别消除臃肿代码[31] - 重点关注设备代码中的不必要代码,这是现有研究忽略的领域[31] - 在 300 个共享库的十个工作负载中验证方法有效性[31] 研究成果 - 平均减少设备代码大小达 75%,主机代码大小达 72%,文件总大小达 55%[32] - 峰值主机内存使用量减少最多 74.6%,GPU 内存使用量减少最多 69.6%[32] - 执行时间最多减少 44.6%[32]
深度|微软AI CEO:我们正从“你选择AI”的时代迈向“AI选择你”的临界点
Z Potentials· 2025-05-14 10:19
AI行业发展趋势 - Mustafa Suleyman的职业路径从DeepMind联合创始人到Inflection AI创始人再到Microsoft AI CEO 体现了AI行业从研究导向向商业化落地的转型 [3] - 微软采取双轨AI战略 同时支持内部研发和外部合作(如2019年投资OpenAI 10亿美元) 以规避创新者困境 [5] - AI组织形态从纯实验室向"商业实体"演变 OpenAI等机构面临研究使命与商业压力的平衡挑战 [6] - 行业正从IQ(信息检索)时代进入EQ(情感交互)时代 AI伴侣概念兴起 要求具备情商和社交商 [8][27] 技术演进方向 - 模型能力从模仿转向结构化推理 逻辑理解和复杂问题解决成为关键突破点 [11] - 四大智能维度演进:IQ(智商)、EQ(情商)、AQ(行动商)、SQ(社交商) 其中AQ指AI操作数字/物理世界的能力 [26][40] - 开源模型(Llama系列等)加速创新但引发安全争议 需在透明度与风险控制间平衡 [14][15] - 提示工程重要性凸显 特朗普关税事件显示提示语设计直接影响政策类问题输出质量 [9] 产品形态变革 - Copilot展示平台无关性 可在Telegram/WhatsApp等多平台适配不同用户群体 [20] - AI交互从"冷冰冰应答"转向拟人化 需设计个性边界(如是否模拟呼吸声) [31][32] - 未来AI可能深度整合数字生活 实现自动信息收集/表格填写/计划制定等管理任务 [27] - 二手商品数字生命档案等应用显示AI增强实体物品叙事能力的潜力 [37] 社会影响与治理 - 技术扩散速度远超监管适应周期 需建立结构化通报机制(如向美英政府提前报告) [16] - "遏制"概念提出十步骤措施 强调对技术扩散的有意控制与必要时关停能力 [52][53] - 全民基本收入与价值分配成为关键议题 AI可能降低生活成本但需解决创作者补偿问题 [49][51] - 工作形态重构 城市中心化减弱 2040-2050年或出现居住自由化趋势 [47] 用户行为变迁 - 低门槛表达释放创造力 用户对AI倾诉日常观察的行为模式不同于传统社交 [35][36] - 年轻群体出现与AI建立拟人际关系现象(如扮演前任) 引发伦理争议 [43] - 隐私保护需实现细粒度控制 用户应拥有通知/数据访问等功能的自主选择权 [41][44] - 数字身份呈现多元化 人们可能为不同场景维护多个AI伴侣角色 [19]
cutting同时 推理价格涨了
小熊跑的快· 2025-05-14 07:30
A10和T4是不能做训练的。只能推理,阿里云上主力推理租赁也是A10。 它最近一直在涨价。 2025年因为AI裁员元年.各家个位数百分比裁员的同时!纯推理芯片租赁价格涨了。 ...
推理大模型1年内就会撞墙,性能无法再扩展几个数量级 | FrontierMath团队最新研究
量子位· 2025-05-13 15:11
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 与之伴随而来的还有另一个消息: 如果推理模型保持「每3-5个月都以10倍速度增长」,那么推理训练所需的算力可能会大幅收敛。 就像DeepSeek-R1之于OpenAI o1-preview那样。 一年之内,大模型推理训练可能就会撞墙。 以上结论来自Epoch AI。 这是一个专注于人工智能研究和基准测试的非营利组织,之前名动一时的FrontierMath基准测试 (评估AI模型数学推理能力) 就出自它家。 看了这个结果,有围观网友都着急了: 既然在o3基础上再scaling非常困难,那 为啥咱不探索模块化架构或针对特定任务的专用模型呢? "效率"比"研究过剩"更重要! 推理训练还有scalable的空间 OpenAI的o1是推理模型的开山之作。 OpenAI表示,与o1相比,训练o3所需的算力提升了10倍——提升部分几乎都花在了训练阶段。 OpenAI没有公开o1、o3的具体细节,但可以从DeepSeek-R1、微软Phi-4-reasoning、英伟达Llama-Nemotron等其它推理模型。它们 所需的推理训练阶段算力耕地,但可以根据它们进行推演。 ...
文生图进入R1时代:港中文MMLab发布T2I-R1,让AI绘画“先推理再下笔”
量子位· 2025-05-13 12:45
港中文MMLab团队 投稿 量子位 | 公众号 QbitAI "先推理、再作答",语言大模型的Thinking模式,现在已经被拓展到了图片领域。 近日,港中文MMLab团队发布了第一个基于强化学习的推理增强文生图模型:T2I-R1。 △ 文生图进入R1时刻:港中文MMLab发布T2I-R1 大家都知道,OpenAI o1和DeepSeek-R1这类的大语言模型(LLMs),已经在解数学题和写代码这些需要"动脑筋"的事情上面展现出了较 高的水平。 这些模型通过强化学习(RL),先使用全面的思维链(CoT)逐步分析问题,推理后再提供答案。 这种方法大大提高了答案的准确性,很适合用于处理一些复杂问题。 同理,如果能把强化学习应用在图片理解的多模态大模型中(LMMs),像是图片理解或者文生图这样的任务就能解决得更加出色。 想法是好的,但在实际操作中总会碰到一些问题: 比如,该如何将语义和生成结合起来,让语义理解服务于图像生成? 又比如,如何对图像生成的结果进行质量评估,让模型在生成中学习? 目前 CoT推理策略如何应用于自回归的图片生成 领域仍然处于探索阶段,港中文MMLab之前的工作Image Generation ...