Artificial Intelligence
搜索文档
Elephant走红:AI开始为“Token浪费”算细账
华尔街见闻· 2026-04-17 16:44
行业范式转移:从模型狂热到工程理性 - 大模型行业正从追求顶级性能的“高烧”阶段,转向关注成本与效率的“理性”阶段,企业级AI应用中约50%的Token被浪费[1] - Token浪费的核心原因是AI应用从“对话”转向“执行”,Agent处理复杂多轮任务时,历史信息累积导致大量冗余计算,Token消耗呈指数级增长[1] - 行业趋势表现为“大模型控榜,小模型控场”,旗舰模型仍主导复杂任务,但100B–300B参数区间的轻量化、高性价比模型调用量明显上升,形成“腰部力量”[11] Token浪费的成因与现状 - 浪费的直接原因是企业使用最昂贵的旗舰模型处理所有任务,如同“用最贵的车跑最短的路”[1] - 随着Agent需要“执行”大量工作,例如客服Agent处理单张工单可能需调用模型十几次,当调用量达每日百万级别时,成本溢价问题在账单上开始显现[4] - 实际测试显示,多轮对话的Token成本增长惊人:第五轮对话成本是第一轮的13.3倍(0.0665美元 vs 0.0050美元),第十轮成本达到第一轮的26倍(0.13美元)[5] - GitHub上关于“Token Waste”的议题数量激增,相关讨论至少有5200个,仅2026年一季度就新增了4150个,表明控制Token浪费已成为开发者的普遍痛点[5] 工程侧的应对:Agent Harness与模型分层 - 当前大多数Agent工程实现粗糙,多步任务中Token消耗线性增长,催生了名为“Agent Harness”的新工程概念,它作为模型外部的“缰绳”,负责管理上下文、编排工具以提升效率[7] - 提升Token效率的压力来自两条并行路线:一是Agent框架侧(如Harness),二是模型侧,推动厂商用更精简的参数完成同等质量推理[7] - 模型选型逻辑走向成熟,分层调用模式变得实用:由大型模型负责决策与规划,小型模型快速、大规模地执行具体子任务[13] - 这种分工类似于CPU从追求单核主频转向多核协作,或数据库领域OLTP与OLAP共存,旨在实现整体吞吐与性价比的最优化[17] 模型格局演变:效率模型崛起 - 模型竞争焦点转向“单位Token成本下的推理速度、指令遵循度及长上下文稳定性”,而非单纯比拼参数规模[10] - 根据OpenRouter的LLM Leaderboard(4月16日数据),小尺寸模型涨幅惊人:排名第17位的GPT-5.4 Nano以48%的涨幅领跑,100B模型Elephant单日涨幅达38%[11] - 100B-300B参数区间成为“实用主义区间”,代表模型如GPT-5.4 Mini,以更低延迟和成本大幅缩小与旗舰模型的性能差距[13] - 新模型如Elephant Alpha(100B参数)定位“智能效率”优先,重点优化Token使用效率,适合代码补全、快速文档处理等场景,上线后单日流量暴涨500%[1][13] - 从应用情况看,OpenClaw、Hermes Agent等成为小尺寸模型的“最大流量贡献者”,开发者将其作为高频、低延迟任务的首选[12] 未来展望:效率定价与分工明确 - 旗舰模型不会消失,在需要跨领域深度推理、多步骤规划等复杂任务上仍不可替代[17] - 在日常业务执行层,将流量迁移到效率更高的模型上是更具性价比的决策,因为使用旗舰模型是在为不需要的能力付费[17] - Token效率正成为工程师评估模型的核心维度之一,因为它直接关系到高频调用场景下产品的商业可行性[17] - 行业路线日渐清晰:模型规模继续重要,但效率开始被市场定价,那些在单位成本下能提供足够推理质量的模型,正成为Agentic应用的默认底座[17][18]
Anthropic引发AI国有化论
日经中文网· 2026-04-17 16:00
Anthropic发布新型AI模型Claude Mythos及其性能 - 公司于4月7日发布了新型AI模型“Claude Mythos” [4] - 该模型在发现软件漏洞方面的能力高于大多数专家,并能够自主发动网络攻击 [6] Claude Mythos模型引发的国家安全关切 - 有观点认为,这是第一个让人感觉一旦权重数据被敌对势力窃取就会引发重大问题的模型,可能会影响国家安全 [2][5] - 由于Mythos有助于通过AI自动进行网络攻击,有些国家很有可能会试图获取其技术 [5] - 如果这种AI在全球扩散,可能会被用于网络战,并对国家的重要基础设施构成威胁 [6] - 美国记者托马斯·弗里德曼指出,Mythos可能会成为与核武器问世同等的“重要的根本性转折点” [6] 美国政府对公司及行业的介入与施压 - 美国国防部已将Anthropic列为国家安全供应链风险对象,一度暗示将动用总统权限适用《国防生产法》进行管控 [9] - 美国政府与公司在对立,施压要求其允许AI广泛使用,而公司曾要求限制使用AI(如不用于完全自主武器) [7] - 有分析指出,政府针对公司的一系列举措是试图将AI“准国有化”,以采购合同为筹码迫使合作伙伴接受政府条件 [9] - 据美国媒体报道,美军曾在对伊朗的军事打击中使用Anthropic的AI产品Claude [7] - 美国财政部长与高盛等美国大型银行的CEO举行紧急会议,美国特朗普政府也在密切关注Mythos在网络领域的高性能 [4] 行业趋势:AI开发国家管控或将加剧 - 随着Mythos这类模型出现,AI能力越强,政府介入就会越深 [11] - 行业创业者已将高端AI开发定位为与核武器同等重要的国家项目,OpenAI的CEO萨姆·奥尔特曼曾将AI比作“曼哈顿计划” [10] - 前OpenAI研究员预测,2027年美国政府可能向一家模仿OpenAI的美国虚拟企业增派人员,最终将其置于政府监管之下 [10] - 现实正逐步逼近中美两国推动AI国有化的预测场景 [11]
OpenAI花数亿收购两个播客——这是AI时代最清醒的一笔账
深思SenseAI· 2026-04-17 15:24
文章核心观点 - 在AI技术大幅降低产品开发门槛的时代,构建产品的技术壁垒已大幅削弱,而获取用户注意力的能力(即“分发”)已成为企业最核心且唯一的护城河 [38][39] - 行业领先的AI公司OpenAI以数亿美元估值收购一档日常播客TBPN,以及多家知名投资机构/公司收购媒体/注意力资产,表明最聪明的资本正在押注“注意力比技术更稀缺” [7][8][9] - 通过Rizz应用案例证明,一个可量化、可规模化、按效果付费的有机内容分发网络,其价值远高于单纯的产品技术优势,并能有效抵御大量仿冒竞争 [20][21][31][35] 行业趋势:技术壁垒坍塌与注意力竞争加剧 - AI工具导致应用开发门槛趋近于零,新网站、新iOS应用、GitHub代码提交量在2025年底至2026年初出现近乎垂直的增长,技术护城河价值大幅降低 [13] - 全球内容供给无限增长,但用户注意力总量固定(80亿人,每人每天24小时),导致产品间的注意力竞争变得异常激烈 [14] - 产品极易被复制,例如Rizz应用在一年内出现超过200个仿冒者,其中一些由个人利用AI工具在周末即可建成,但仿冒者平均自然下载量仅200次,平均寿命90天 [17][18] 传统获客渠道失效与成本飙升 - 付费广告渠道效果下降且成本飙升,例如Meta平台B2C广告千次展示成本(CPM)在部分品类超过40美元,用户获取成本(CAC)在过去几年上涨了222%,平均应用付费流量转化率仅1.2% [24] - 传统网红合作模式成本高、效果不确定,例如一次4000美元的联合帖子合作平均仅带来3000次观看,每次观看成本超过1.3美元,且无效果保证 [24][25] - 算法优化(如Meta移除手动定向)使每次转化成本下降22.6%,但这进一步削弱了中小公司依靠精准定向对抗大预算竞争对手的能力 [24] 新兴分发模式:播客作为“切片工厂”与创作者网络 - 现代成功播客的核心价值在于其“切片工厂”能力,即将长内容加工为30-60秒的短视频切片进行分发,切片触达的受众可达完整播客收听者的20到50倍 [26] - OpenAI收购TBPN播客,实质是购买其成熟的切片生产能力和每日稳定的高质量受众触达能力,这种能力在AI时代比代码更难复制 [28] - 短视频切片分发已成为核心影响力渠道,例如2024年美国大选期间,哈里斯竞选团队的60秒辩论切片在TikTok等平台触达的选民比历史上任何电视广告都多 [26][27] 成功案例剖析:Rizz的可量化分发飞轮 - Rizz应用未投入任何付费广告,通过向匿名创作者网络支付200万美元,获得了500亿次播放量,并最终带来1500万美元总收入 [31] - 其分发模式与传统网红合作有本质区别:按播放量付费、效果可量化、创作者匿名(不依赖个人IP)、网络可无限扩大 [31] - 该模式已系统化为AffiliateNetwork.com平台,数据显示59.35万美元广告花费带来了31.59亿次有机播放,每百万次播放成本约187美元,远低于Meta等付费渠道 [34][35] 高效分发平台的运作逻辑 - 平台运作基于绩效付费(RPM,即每千次播放报酬),品牌方只为真实播放量付费,创作者只在达到最低播放量门槛后获得报酬,无平台抽成 [36] - 内容格式固定且创作者匿名,使得一个创作者可运营多个账号,实现内容的批量生产与规模化,其上限远高于依赖稀缺头部网红的传统模式 [31][37] - 平台在防虚假流量检测上投入大量资金,以确保付费播放量的真实性,解决了内容营销行业的信任痛点 [36] 对产品与创业者的启示 - 产品开发与分发应同步甚至优先设计,目标用户的内容消费场景即是建立产品存在感的起点 [39] - 应将固定的广告投放成本转化为按效果付费的绩效成本,Roman的案例(59万美元换31亿次有机播放)证明了该模式的有效性 [39] - 内容格式的可复制性与规模化能力比单纯的内容质量更重要,稳定的、可批量生产的内容模板是构建分发飞轮的关键,胜过依赖个人魅力的偶发爆款 [39]
Anthropic又发新模型了,但手里藏着更强的“杀招”
第一财经· 2026-04-17 14:53
公司产品更新与性能 - Anthropic于4月16日发布旗舰新模型Claude Opus 4.7,距离上一代发布仅间隔两个多月,新模型能以更严谨态度处理长时间任务,更精确遵循指令,并在报告前验证输出 [3] - 在编程能力基准测试SWE-bench Verified中,Opus 4.7得分从上一代的80.8%升至87.6%,是目前公开模型中的第一名,超过Gemini 3.1 Pro的80.6% [6] - 在更难的SWE-bench Pro测试中,Opus 4.7得分从53.4%升至64.3%,对比GPT-5.4为57.7%、Gemini 3.1 Pro为54.2% [7] - Opus 4.7视觉能力大幅提升,视觉推理的CharXiv分数从上一代的69.1%提升到了82.1% [10] - 用户反馈显示,能够自信地将最困难的、以前需要密切监督的编码工作交给Opus 4.7 [9] 公司技术储备与竞争地位 - Anthropic拥有比Opus 4.7更强大的内测模型Claude Mythos Preview,该模型在代码与漏洞扫描上展现出“破坏性”的跨代提升,公司认为其“过于强大”,公开发布是不负责任的 [6] - 在SWE-bench Verified测试中,内测的Mythos Preview分数达到93.9%,在SWE-bench Pro测试中达到77.8%,均为目前最高水平 [6][7] - 过去一段时间,Anthropic产品迭代节奏加速,据不完全统计,在今年2月1日至3月24日短短52天里,公司一共更新了74款产品,平均不到两天一个 [11] - Anthropic通过每一次产品发布,都影响一批公司的股价,并靠着大模型产品能力坐稳AI圈“顶流” [11] 公司定价与市场策略 - Opus 4.7基础定价未上涨,仍为每百万token输入5美元、输出25美元,但因引入新分词器,同样文本会拆分出比原来多1到1.35倍的token,导致实际消耗成本上升 [11] - 对众多开发者而言,Claude是攻坚编程难题的首选工具,只要产出效率带来的杠杆足够大,增加的token成本对企业级用户而言是可接受的经济账 [11] - Anthropic在划定业务边界,例如禁止“龙虾”(OpenClaw)等第三方工具使用Claude订阅服务,并为部分使用场景引入强制实名认证,分析指出这是“合规清场”,对内完成用户分层与责任追溯,对外精准过滤非战略市场 [12] 公司财务与行业竞争 - Anthropic宣布公司年化收入(ARR)已超过300亿美元(约合人民币2048亿元),和2025年底的90亿美元(约合人民币614亿元)相比实现大幅增长 [13] - 从数据上看,Anthropic的收入已反超OpenAI,后者最新年化收入为250亿美元(约合人民币1706亿元) [13] - OpenAI首席营收官指出,由于计算云分发合作伙伴收入方式存在差异,统一到净额口径后,Anthropic宣称的300亿美元年化营收实际约为220亿美元,低于OpenAI的250亿,但按Anthropic目前增长速度,超过OpenAI或许只是时间问题 [13] - Anthropic最快或将于今年10月在美国上市,OpenAI目标2027年上市,估值可能高达1万亿美元 [13] - AI竞争已进入拼收入、拼治理、拼上市时间表的新阶段 [14]
阿里首个世界模型:快乐…生蚝
量子位· 2026-04-17 14:45
产品发布与核心功能 - 阿里新成立的ATH事业群发布全球首个主动式实时交互的世界模型产品“HappyOyster”(快乐生蚝)[2][5] - 产品核心主打四大功能:漫游(Wander)、导演(Direct)、创造(Create)、分享(Share)[5][10] - “漫游”模式允许用户通过文本或图片输入生成可交互小世界,并使用WASD和方向键实时控制角色位移与镜头视角,沉浸式探索[5][7] - “导演”模式是一个实时AI视频导演引擎,允许用户在视频生成的任意节点,用文字指令实时控制镜头、调整角色、改变剧情走向,实现“边拍边改”[8][9] - “创造”功能将体验从“生成一段视频”进化到“创造一个世界”,用户成为深度参与的创造者[9] - 用户创建的世界可以分享,供他人探索和二次创作[10] 产品技术规格与体验 - “漫游”模式支持最长1分钟探索,分辨率为480p,时间结束后需重新进入[13][18] - “导演”模式支持最长3分钟视频生成,分辨率可选480p或720p[13] - 两种模式均支持多模态输入,以及音频和视频输出[13] - 产品生成速度快,且生成的世界自带背景音乐(BGM)并包含动态NPC,增强代入感[16][21] - 在“导演”模式下,用户可调整分辨率(720p、480p),设定叙事风格与情感基调(常规、平和、戏剧化),控制运镜方式与画面稳定度(稳定、快速)[26] - 产品目前处于邀请制体验阶段,需要申请邀请码[11] 核心技术突破 - 产品基于原生多模态架构与流式生成世界模型,重点突破三大核心技术难点以实现“实时交互、长时连贯、音画同步”[35] - 第一项突破是**长时世界建模**:采用长时间跨度的世界演化建模方式,通过海量长视频数据学习世界运行规律,并加入持续状态复用机制,通过历史注意力状态的连续传递来维持长时间生成时的场景结构与动态连贯性,解决“生成久了就错乱”的问题[36][37][38] - 第二项突破是**实时交互控制响应**:在建模初期设计多样控制信号(文本、动作、图像等),使外部指令能持续影响世界演化,实现生成质量、长时一致性与实时可控性的协同优化,模型从“被动生成内容”升级为“主动模拟世界”[40][41] - 为实现实时性,模型采用流式生成框架,通过对世界状态进行高度压缩的隐式建模来降低单步计算开销,并将控制信号设计为可在线注入的条件变量,确保无需重置生成过程即可实时响应[43] - 第三项突破是**音视频联合生成**:采用统一的音视频生成框架,在同一世界状态下同步生成视觉与听觉信号,通过共享条件约束与协同解码机制,保障音画同步与语义一致,提升沉浸感[44] 战略定位与未来应用 - 阿里ATH事业群于2024年3月16日成立,核心目标是“创造Token、输送Token、应用Token”,旗下涵盖从基础模型研发到个人与企业端AI应用的完整布局[35] - HappyOyster的核心能力是对开放世界状态进行持续建模、预测与响应,天生适合延伸到需要“实时感知—实时生成—实时反馈”闭环的现实场景中[32] - 潜在应用方向包括文旅展陈、线下娱乐、机器人训练、数字人陪伴、教育演练、智能空间交互等[32] - 模型可作为实时演化的世界引擎,与摄像头、麦克风、空间传感器、显示终端、机械装置或可穿戴设备连接,根据人的位置、动作、语言和环境变化动态生成内容或交互结果[32] - 与硬件系统结合后,产品将承载一个能被现实输入持续驱动的生成式环境系统,打开未来的应用场景[33] 行业意义与产品愿景 - 该产品标志着从传统“文生视频”模型向“生成可交互世界”的跃迁,旨在打破用户与数字世界之间的“第四面墙”[45][46] - 下一代生成式AI的目标是生成一个完整的、可进入的世界,这个世界包含空间、物理、因果、角色和故事,用户可以进入、改写、离开并邀请朋友进入[46] - 产品名称“HappyOyster”灵感来源于莎士比亚的名言“The world is your oyster”,寓意通过一句话就能拥有一个完整的、可漫游、可导演、可分享的数字世界[48]
今年最火的AI产品,不止龙虾|榜单申报中
量子位· 2026-04-17 14:45
评选活动概述 - 量子位正在发起一项针对AI企业和产品的评选活动,旨在寻找并表彰2026年度值得关注的AIGC企业与产品[3][6] - 评选结果将于2026年5月在北京举办的中国AIGC产业峰会上公布,并邀请数百万行业从业者共同见证[6][7] - 评选活动报名截止日期为4月27日,企业可通过扫描二维码或联系指定工作人员进行申报[4][16][17] 评选核心目标与标准 - 评选旨在发现真正跑通应用场景、已被用户验证的AI产品,以及拥有技术实力和潜力的AI企业,而非仅关注短期热度[3] - 对于企业,关注其是否拥有清晰落地的应用场景、真实且持续增长的用户数据,以及在细分领域做出差异化体验或效率提升[8] - 对于产品,关注其是否基于生成式AI能力、已投放市场并拥有一定用户规模,且在近一年有重要的技术创新或功能迭代[16] 企业评选具体维度 - **技术维度**:评估公司的技术实力、研发能力、创新性,包括技术成果、研发投入和人才储备[12] - **产品维度**:评估核心产品的创新性、市场适配性和用户体验,包括产品创新性、用户规模和体验[12] - **市场维度**:评估公司在市场中的表现和增长机会,包括商业模式、市场规模、营收情况和合作生态[12] - **潜力维度**:评估核心团队实力和品牌潜力,包括核心团队、投融资进展和品牌影响力[12] 产品评选具体维度 - **产品技术力**:评估产品在技术方面的先进性、成熟度和高效性,包括技术架构、技术成果和产品效果[16] - **产品创新力**:评估产品在功能、体验和应用场景方面的创新性与独特性,包括核心功能、应用场景和解决的痛点[16] - **产品表现力**:评估产品的用户反馈和市场表现,包括用户规模、留存率、用户反馈和产品影响力[16] - **产品潜力**:评估产品在未来发展和市场扩展方面的潜力,包括产品生态、市场潜力和战略规划[16] 行业背景与峰会主题 - AI行业正从“观望期”迈入“全民参与期”,AI技术正从论文和发布会走向短视频创作工具、手机助手等广泛的实际应用[19] - 2026中国AIGC产业峰会以“@所有人,马上AI起来”为主题,聚焦“如何用好AI”,旨在帮助更多人迈出实际应用AI的第一步[19] - 峰会诚邀AI创业者、开发者和资深玩家参与,共同探讨如何将AI讲清楚、用起来、跑起来[19]
实测Claude Opus 4.7,好好的模型也开始不说人话了
创业邦· 2026-04-17 14:14
Claude Opus 4.7模型发布与市场反响 - Claude Opus 4.7发布后引发高度关注,在作者监控的数十个精选信源中,有10个同时报道了该消息,远超一般热点(3-6个信源)的水平[7][8][9] - 模型已全渠道上线,包括移动端和Claude Code,并维持了1M的上下文长度[12][13][15][17] - 公司为部分用户重置了使用额度,提升了用户体验[18][19] 定价策略与成本变化 - 模型API定价与上一代保持一致,为输入$5/M,输出$25/M[23] - 公司采用了新的tokenizer,导致同样的输入内容会被切分成更多token,数量约为原来的1.0到1.35倍,具体取决于内容类型[30][32] - 尽管单价未变,但由于Token消耗量增加,用户完成相同任务的成本可能上升,账单可能增加[33][35] - 公司解释称,模型准确性的提升可能减少任务来回修改的轮次,从而在复杂任务上实现整体成本可控,但对于模型能力提升不明显的日常任务,用户成本将纯增加[36][37] 模型性能基准测试表现 - 在多项基准测试中,Claude Opus 4.7相比4.6版有显著提升,例如在Agentic coding(SWE-bench Pro)上从53.4%提升至64.3%,在Agentic coding SWE-bench Verified上从80.8%提升至87.6%[25] - 在视觉推理测试(CharXiv Reasoning)中,无工具辅助得分从84.7%提升至91.0%,有工具辅助得分从69.1%提升至82.1%[25] - 在研究生级推理(GPQA Diamond)测试中得分达到94.2%,与主要竞争对手(GPT-5.4 Pro的94.4%,Gemini 3.1 Pro的94.3%)处于同一水平[25] - 值得注意的是,官方数据显示,上一代Opus 4.6在编程相关性能上多数未超过GPT-5.4,这是公司首次在编程领域承认落后于竞争对手[25] 多模态与视觉能力突破 - 视觉能力取得巨大飞跃,在XBOW的视觉测试中,得分从4.6的54.5%大幅提升至4.7的98.5%,成功率从约一半提高到近乎全部通过[39] - 支持的图片分辨率提升至最多可处理2576像素长边的图像,约3.75兆像素,是之前Claude模型的三倍多[39] - 高分辨率图像处理能力的提升,使其能够更准确地识别复杂界面(如浏览器、后台管理系统)中的密集细节,这对于需要自主视觉理解的应用(如自动化渗透测试)至关重要[39] - 实际应用测试中,对于包含大量文字和样式的网页截图识别错误率显著降低,提升了在合同审查、财报分析、竞品界面研究等知识工作场景的实用性[41][42][43] 用户体验与交互设计能力 - 在用户体验和美学设计方面有提升,新模型更理解用户对“丝滑”交互设计的需求,与竞争对手GPT-5.4相比,后者在创作和用户体验设计上被评价为表现不佳[26] - 实际案例显示,使用Opus 4.7开发一个公司招聘网站,从描述需求到产出基本可用的页面仅耗时20分钟,其审美和动效更符合用户体验规则,开发体验优于4.6版[46][47][49][52] - 在创意产业(如影视编剧优化剧本)中,Claude被视为更优的辅助工具,而竞争对手GPT-5.4的创作能力被评价为“几乎为0”,顶级创作者倾向于选择Claude[26] 模型“人味”与语言风格的退化 - 新模型在语言风格上出现了“不说人话”的倾向,开始使用如“稳稳接住”、“根因”、“收口”等程式化、缺乏人情味的词汇,引发了部分用户的不满[55][56][57] - 用户测试发现,让模型续写文章时,其文风变得生硬,失去了原有的文字品味[59] - 社区反馈表明,这不是个别用户的感受,而是一个较为普遍的现象[59] - 这反映出一个行业趋势:模型能力在编程等可量化指标上不断进步,但在语言的自然度、创造性和“人味”上可能被系统性地牺牲,因为后者缺乏明确的商业价值和量化标准[63] 新功能与行业应用拓展 - 在模型“努力程度”档位中,于原有的high和max之间新增了“xhigh”(extra high)档位,并设为默认,以填补性能跨度[60] - 在Claude Code中引入了新的`/ultrareview`命令,用于深度代码审查,能仔细查找bug和设计问题,但单次使用成本较高,约为5到20美元,Pro和Max用户有3次免费试用额度[61][62] - 推出了“网络安全验证计划”,为合法的安全研究、渗透测试等场景开设了特殊申请通道,允许通过审核的从业者使用原本受限的模型能力[62] - 这一分级授权机制被视为一个重要的行业设计思路,未来可能被复用于医疗合规研究、金融模拟攻击、生物合规用药及军工研发等需要严格身份核验的产业领域[62]
π0.7发布,VLA押出了机器人的GPT-3时刻
量子位· 2026-04-17 13:49
模型发布与核心突破 - Physical Intelligence公司发布了全新的视觉-语言-动作模型π0.7,该模型在机器人领域首次证明了组合泛化能力 [1][2] - 模型的核心洞见是“多样化的数据需要多样化的prompt”,通过为训练数据添加丰富的上下文元数据,使模型能够区分数据质量并有效学习,从而解锁了使用多样化、非完美数据源的能力 [12][16][17][19] - 这一方法带来了“涌现”能力,使通才模型在未进行任务专项训练的情况下,性能追平甚至超过了经过微调的专家模型,标志着具身智能领域的一个关键转折点 [20][22][28] 关键性能与能力展示 - 在开箱即用的测试中,π0.7在“做咖啡”、“叠衣服”、“装箱”三个复杂任务上,追平了其前代模型π0.6经过专门微调的专家模型(包括RL specialist和SFT specialist) [23][25][26] - 在“叠衣服”和“装箱”这两个最难的任务上,π0.7比RL specialist单位时间内完成的次数更多 [27] - 模型展现出四种关键的涌现能力:开箱即用的灵巧操作、指令泛化、跨本体泛化和组合任务泛化 [29] - 在跨本体泛化测试中,模型将从一个机械臂(source robot)学到的策略,成功部署到另一个完全不同的机械臂(UR5e)上,任务完成度达到85.6%,与经验丰富的人类操作员(90.9%)基本持平,并且自主开发了更适合新机器人运动学的抓取策略 [33][34][36] - 模型能够理解并执行复杂的空间和语义指代指令,例如“拿起那个最大盘子里的水果” [32] - 模型能够组合已学的原子技能来解决全新的任务,例如在训练数据中从未见过“空气炸锅”的情况下,根据指令组合动作烤出红薯 [7][37][39] 方法论与技术创新 - π0.7模型规模为50亿参数,由三部分组成:负责视觉与语言理解的40亿参数Gemma3 VLM骨干、负责生成连续动作块的8.6亿参数Action expert transformer、以及负责生成次目标图像的World model [52][60] - 模型采用“知识隔离”训练方法,VLM骨干的梯度与Action expert隔离,保护从互联网数据中学到的语义知识不被机器人动作数据污染 [63] - 模型输入包含4路摄像头画面、机器人关节状态、任务指令、子任务指令、元数据以及World model实时生成的次目标图像,输出为50步的动作块序列 [54][55] - 其World model的作用并非预测物理演化,而是作为一个“消歧器”,将任务指令翻译成“成功时应该呈现的画面”,不参与决策规划,这与主流的世界模型技术路线有本质区别 [56][57][58] - 公司的技术路线坚持VLA范式,认为视觉-语言模型可以直接控制机器人,无需先构建内部的世界模拟器进行预测,这一判断从RT-2延续到π0.7 [65][74][75] - π0.7的贡献主要在于方法论而非新架构,其核心是提出了一套通过多样化prompt来利用多样化数据源的方法,解决了以往因数据质量参差不齐而难以利用的问题 [64][83][84] 数据利用与行业影响 - 一个关键实验表明,为训练数据添加质量元数据后,模型性能随数据量增加而提升,即使数据平均质量下降;反之,不加元数据则数据越多性能越差 [43][44][46][47] - 这一发现挑战了机器人领域长期以来的“数据清洗”惯例,表明只要模型知道每条数据的质量标签,低质量或失败的数据也能成为有用的学习信号,从而极大拓展了可用数据的范围 [48][49][50][51] - 该模型的出现被视为对当前火热的世界模型技术路线的一次重要挑战,表明更简单的VLA方法在数据规模扩大后,同样能实现强大的组合泛化能力,可能改变行业的技术风向 [69][91][94][95]
Claude有的,国产也有!紫东太初科研龙虾ScienceClaw,已经把Harness卷进实验室
量子位· 2026-04-17 13:49
文章核心观点 - 文章认为,紫东太初ScienceClaw是一款在AI for Science(AI4S)领域具有突破性意义的国产科研工具,它并非Claude Managed Agents的简单替代品,而是基于自主创新的多Agent分层编排托管架构,兼具科研深度与通用场景能力,并实现了技术全栈国产化的落地产品 [4][37][48][60] 产品功能与能力总结 - 产品覆盖从基础研究到工程化落地的全链条科研需求,能够理解科研逻辑,进行专业信息深度检索、学术写作指导等 [7] - 具备强大的图像可视化生成能力,例如可生成top marker基因点图 [8][9] - 能够7x24小时不间断自动优化,全程无需人工干预 [11] - 可深度接入实验室自动化终端与具身智能硬件,实现物理世界的直接交付 [12] - 内置超过3000个顶级科研工具,全方位覆盖8大学科场景 [21] - 支持多Agent协同工作,如同一个完整的“实验室团队”为用户处理复杂任务 [24] - 具备商业数据分析、媒体内容生成等通用场景能力,例如可生成包含5452条订单数据的电商分析报告及8张统计图表 [29][30][32] - 已接入飞书、微信等平台,支持在移动端和协作工具中无缝使用 [36] 技术架构与核心优势 - 底层采用对标Claude Managed Agents的通用Agent托管架构(Harness),实现任务的稳定可控与可观测、可托管 [2][14] - 核心创新在于多Agent分层编排体系,分为调度层(Lead Agent)、配置层(SubAgent注册表)和执行层(子Agent工厂),实现任务的分工合作与微服务隔离 [39][40][41] - 执行过程彻底告别黑箱,实现全链路实时可观测,满足科研对过程回溯的需求 [13][14][42][43] - 通过微服务架构实现算力资源的弹性扩缩容和执行环境的安全硬隔离 [42] - 构建了六阶段分布式中间件管道以实现深度工程化解耦,并采用基于Token阈值的动态上下文管理体系,解决长程任务中的上下文溢出风险 [42] - 产品开箱即用,部署简便,大幅降低了企业智能化转型门槛 [19][20] 行业背景与公司定位 - AI4S赛道竞争加剧,OpenClaw的发布促使各大厂商跟进推出Claw类产品 [50][51] - 在科研Claw细分领域,紫东太初被认为是国内发展最快且最稳健的厂商 [52] - 紫东太初ScienceClaw的推出是公司技术积累与产业布局的具象化呈现,其背后根植于公司自研的紫东太初多模态大模型 [53][54][55] - 紫东太初4.0模型于2025年9月发布,是全球首个深度推理+多模态的大模型,其原生多模态能力突破16项SOTA纪录,并适配350个国产算子,实现端到端训推自主可控 [56] - 公司产品演进遵循从基础大模型,到个人科研工具(ScienceClaw个人版),再到企业级平台的完整链路 [58][60] - 技术全栈国产化是公司的核心战略,这既是满足机构用户数据安全与合规诉求的关键,也构成了公司的差异化竞争力和产业底气 [60][61][62] - 该产品被视为验证AI4S在B端落地价值的成功案例,有望带动整个产业从个人应用转向真正的生产力工具 [64]
“近亿年薪!DeepSeek员工跳槽字节”引热议。字节副总裁辟谣
程序员的那些事· 2026-04-17 13:38
事件概述与辟谣 - 字节跳动副总裁李亮亲自辟谣,否认前DeepSeek顶尖研究员郭达雅入职字节获得“固定年薪近亿元”的传闻 [3] - 相关报道被指存在明显误读,所谓近亿元固定年薪并不属实 [3] 人才背景与聘用详情 - 95后博士郭达雅正式加入字节Seed大模型团队,负责Agent相关工作 [3] - 郭达雅是DeepSeek核心成员,曾深度参与多款重要模型研发,并拥有算法大赛三连冠的履历,被视为AI领域稀缺顶尖人才 [3] 字节大模型团队薪酬结构 - 字节大模型团队薪酬体系统一,由现金、常规期权与豆包业务期权三部分组成 [3] - 期权按四年正常归属,公司表示对核心员工并无特殊待遇 [3] - 所谓“亿元年薪”并非固定工资,而是绑定业务成果的潜在期权回报 [3] 潜在薪酬回报机制 - 如果豆包业务未来发展足够好,部分核心员工四年累计收益确实有机会达到数亿级别 [3] - 高收益是基于业务成功的长期潜在回报,并非网传的天价保底薪资 [3] 行业人才竞争现状 - 此次事件折射出当前大模型行业顶尖算法与架构人才依旧稀缺的现状 [5] - 大型科技公司更倾向于用高额期权来绑定核心成员 [5] - 看似天价的薪酬数字,本质上是与业务成败深度绑定的长期赌注 [5]