Workflow
xbench
icon
搜索文档
红杉中国,10天发两篇Paper
投资界· 2026-01-21 10:01
红杉中国xbench发布AgentIF-OneDay评测体系 - 红杉中国联合UniPat AI发布了评估大模型纯视觉理解能力的评测集BabyVision,作为xbench基准测试中AGI Tracking的一部分,揭示了世界模型和视觉多模态的巨大发展潜力 [2] - xbench正式推出AgentIF-OneDay评测体系,该体系不再单纯考核模型的知识量,而是衡量其解决全场景长时复杂任务的能力,标志着Agent领域的新分水岭 [2] - 该评测体系旨在探索Agent从处理“一小时”任务到处理“一天”任务的跨越,揭示其在工作流执行、隐式推断与迭代编辑中的真实表现 [3] Agent能力演进的核心框架 - Agent能力的演进将沿着两条主线展开:Scaling Context(时间维度延展)与Scaling Domain(任务类型扩展) [8] - Scaling Context指任务在时间维度上的延展,Agent需在更长执行周期中维护上下文状态,跟踪目标与约束,从分钟级任务扩展到一天级乃至一周级工作量 [8] - Scaling Domain指Agent在任务类型上扩展带来的复杂度,现实工作横跨多个领域与语境,Agent需提升对更广任务分布的覆盖能力 [9] - xbench在设计AgentIF评测体系时,会同时沿着Context与Domain两个方向推进,通过拉长时间尺度和覆盖多样场景来刻画Agent的整体能力边界 [9] AgentIF-OneDay评测的设计与构成 - AgentIF-OneDay以人类一天内可完成的任务复杂度为基准,测试Agent在无需人类介入下稳定完成整套任务并交付结果的能力,覆盖生活、学习和职业等多样化领域 [12] - 评测题库基于对大量用户真实工作日志的分析,将日常任务抽象为三种类型:工作流执行、范例参考(隐式指令推断)以及迭代式编辑 [13][14][16] - 第一期题库由104道任务组成,覆盖工作、生活和学习场景,其中62道为文件驱动的合成任务,覆盖PDF、PPT、Excel、图像、代码等15种以上格式 [17] - 每道任务都有一套细粒度评判标准,总计767个评分点,分为正向与负向指标,评测系统采用LLM作为裁判并结合自动校验方法 [17] 主流Agent系统的评测结果 - 以Overall完整任务成功率为标准,Manus、Genspark与ChatGPT-Agent集中在0.62–0.65区间,构成当下能力最强的第一梯队 [20] - 从任务领域看,ChatGPT-Agent在工作场景得分最高(72.18),Manus在生活场景得分最高(73.40),Genspark在学习场景得分最高(71.19) [22] - 从能力维度看,Genspark在隐式指令推断上表现最优,Manus在开放工作流执行上最优,MiniMax-Agent具有最好的迭代式编辑能力 [23] - 评测发现,隐式条件推断是目前Agent普遍最薄弱的能力项,稳定性、文件处理链路、隐式结构理解及跨工具状态管理是决定Agent能否承担一天工作量的关键 [23] Agent技术的未来展望与挑战 - 随着系统能力提升,预计在2026年Agent将开始挑战“一周”的人类工作量,xbench已开始构建OneWeek评测集 [24] - OneWeek评测面临的挑战不仅是任务变长,还包括出题难度增加、评测标准更严格,以及高价值行业场景数据获取成本显著上升 [25] - 从长期技术演进看,静态训练与静态评测可能都不是未来Agent系统的发展路径,下一步能力提升可能发生在模型部署之后,通过不断的真实世界强化学习来获取实践知识 [26] - 长程任务Agent的发展可类比自动驾驶,从有限路段走向通用路段,有效的数据累计可以带来高可靠Agent系统的出现,优先转起数据飞轮的公司将率先实现通用Agent的完全自动驾驶时刻 [27]
多模态大模型输给三岁宝宝?xbench x UniPat联合发布新评测集BabyVision
新浪财经· 2026-01-12 09:57
多模态大模型视觉能力评测 - 红杉中国xbench与UniPat AI团队联合发布新的多模态理解评测集BabyVision,旨在测评大模型在不依赖语言提示时的纯视觉理解能力[1][33] - 评测核心观点指出,当前多模态大模型在语言与文本推理上突飞猛进,但在需要“看懂”而非“说清”的视觉问题上能力仍明显不足[1][33] - 评测设计理念是避免视觉问题退化为可完全用文字描述的文本题,从而迫使模型展现真正的视觉基础能力:比较、追踪、空间想象、模式归纳[1][33] 评测方法与设计 - BabyVision将视觉能力拆解为4大类共22个子任务,包括精细辨别(8个子任务)、视觉追踪(5个子任务)、空间感知(5个子任务)和视觉模式识别(4个子任务)[2][10][34][42] - 评测集构建参考了儿童认知教材和视觉发育测验,通过种子示例从互联网爬取约4000张候选图片,并经过严格的人工标注与双盲质检,最终产出388道高质量视觉题目[9][11][41][43] - 为确保“纯视觉”考核,团队在数据收集时过滤掉包含大量文字或需要文化常识的图片,并确保每道题的答案可通过视觉推理得出[11][43] 评测结果与表现差距 - 人类基线准确率高达94.1%(基于16位至少本科背景的测试者完成全量388题)[11][43] - 闭源模型中表现最强的Gemini3-Pro-Preview准确率为49.7%,其后GPT-5.2为34.8%、Doubao-1.8为30.2%[2][12][34][44] - 开源模型中表现最强的Qwen3VL-235B-Thinking整体准确率为22.2%,多数开源模型准确率在12%至19%区间[2][12][34][44] - 在BabyVision-Mini(20道题)的对比实验中,大多数模型分数低于平均3岁儿童,Gemini3-Pro-Preview是唯一稳定超过3岁基线的模型,但距离6岁儿童仍差约20个百分点[4][6][36][38] 模型能力短板分析 - 评测结果显示,模型在四大类视觉能力上表现均全面下滑,表明存在“系统性缺基础视觉能力”问题,而非单点缺陷[12][44] - 一些子任务如“Count 3D Blocks”在多模型中普遍表现极低,暴露了模型在结构化场景理解上的严重不足[12][44] - 关键原因在于许多视觉题目是“unspeakable”的,即视觉细节难以被无损压缩成语言token,模型若采用先复述再推理的语言捷径,关键信息会在压缩过程中丢失[2][14][34][46] 视觉任务面临的典型挑战 - 挑战1“非语言细节”:模型将形状概括为语言描述时,会抹平像素级错位等细微差异,导致选项在token空间里变得“几乎一样”[14][16][46][48] - 挑战2“追线追丢了”:在连线/轨迹题中,模型将连续路径翻译为离散的“左/右/上/下”步骤,遇到交叉点时易“换轨”追错线,而人类本能是锁定一条线追踪至终点[6][16][19][38][48][51] - 挑战3“缺少真正的空间想象”:在三维方块计数等任务中,模型缺乏稳定的3D内部表征与变换能力,容易漏掉隐藏块或搞错投影关系,而人类是在脑中构建并旋转立体结构[19][21][51][53] - 挑战4“图形规律归纳难”:模型常关注表面属性(颜色、形状),误将“结构规则”解读为“外观统计”,导致在规则迁移时产生幻觉,而人类抽象的是关系映射与变换规则[21][23][53][55] 生成式推理的新方向 - BabyVision-Gen从原基准中重标注出280道适合生成式作答的题目,要求模型用图像或视频输出解题过程或答案[2][24][34][56] - 在BabyVision-Gen上评测多种生成模型(如Nano-Banana-Pro、Qwen-Image、Veo-3、Sora-2)发现,生成式推理在视觉追踪、精细辨别等任务上表现出“更像人类”的行为(如画轨迹、做标注)[23][55] - 自动评测工具与人工评测的一致性达到96%,但生成模型整体仍缺乏稳定到达完全正确解的能力[2][24][34][56] - 该方向表明,将视觉推理“落地到视觉操作”可能是补齐模型视觉短板的一条潜在路径[23][55] 评测集的价值与意义 - BabyVision的价值在于将“看懂世界”拆解为22个可测量、可诊断、可迭代的原子能力,为多模态与具身智能(embodied AI)补齐视觉短板提供了明确的路线图[3][29][35][61] - 评测突显了补强视觉地基对于实现真正通用智能与具身智能的必要性,即需要“看得准、追得住、想得出、归纳得了”[28][60] - 该评测属于红杉中国xbench双轨评估体系中的AGI Tracking赛道,用于追踪模型的AGI演进进程[1][30][33][62] xbench评估体系介绍 - xbench采用双轨评估体系,分为AGI Tracking赛道与Profession Aligned赛道,旨在同时追踪模型的理论能力上限与其在真实世界中的经济与实用价值[1][30][33][62] - 该体系采用长青评估机制,通过持续维护并动态更新测试内容以确保时效性和相关性[30][62] - xbench在AGI Track首期发布了科学问题解答测评集(xbench-ScienceQA)与中文互联网深度搜索测评集(xbench-DeepSearch),BabyVision是其多模态评估集,后续将发布面向Agent指令遵循的AgentIF等评测集[31][63] - xbench此前已构建面向招聘和营销领域的垂类Agent评测框架,后续计划发布覆盖生物技术、金融、法律等场景的垂类评测集[32][64]
多模态大模型输给三岁宝宝?xbench x UniPat联合发布新评测集BabyVision
红杉汇· 2026-01-12 09:04
文章核心观点 - 红杉中国xbench与UniPat AI团队联合发布名为BabyVision的全新多模态理解评测集 旨在量化评估大模型的基础视觉原子能力 揭示其与人类在“看懂世界”上存在的巨大差距 [1] - 评测结果显示 当前顶尖多模态大模型的视觉理解能力普遍低于3岁儿童 表明模型存在“系统性缺基础视觉能力”的问题 而非单一缺陷 [2][4][13] - 视觉问题的核心挑战在于其“unspeakable”特性 即无法在不丢失信息的情况下被完整语言化 模型试图将视觉信息压缩为文本token会导致关键细节丢失 从而无法进行真正的视觉推理 [14][15] - 研究团队提出通过生成式视觉推理(如画图、描线)可能是补齐模型视觉短板的一个方向 并为此开发了BabyVision-Gen评测集进行探索 [26][27][28] - BabyVision的价值在于将复杂的“看懂世界”能力拆解为22个可测量、可诊断的原子视觉任务 为多模态大模型的未来发展提供了明确的迭代与改进方向 [9][32] 评测背景与设计理念 - 该评测属于红杉中国xbench双轨评估体系中AGI Tracking赛道下的多模态评估集 旨在追踪模型的AGI演进进程 [1] - 评测设计核心理念是量化那些“人类直觉就会、但构成智能地基”的视觉原子能力 这是具身智能走向现实世界的必修课 [9] - 为避免模型通过语言推理走捷径 评测严格控制语言依赖 题目要求简单 答案必须依靠视觉信息本身得出 [2] 评测数据集构建 - 研究团队参考儿童认知教材和视觉发育测验 梳理出4大类共22种基础视觉子任务 [9] - 通过逆向图像搜索和关键词搜索从互联网爬取约4000张候选图片 并严格筛选版权合规、不含大量文字或需文化常识的素材 [9] - 经过专业人员人工标注、设计问题与答案 并进行“双盲质检” 最终产出388道高质量视觉题目 [10] 视觉能力分类 - 视觉能力被提炼为四大核心类别:视觉模式识别(4个子任务)、精细辨别(8个子任务)、视觉追踪(5个子任务)、空间感知(5个子任务) [9][11] 评测结果分析 - 人类基线测试(16位至少本科背景者)在388道题上的准确率达到94.1% [13] - 闭源最强模型Gemini3‑Pro‑Preview的准确率为49.7% 是唯一稳定超过3岁儿童基线的模型 但距离6岁儿童仍差约20个百分点 [4][13] - 开源侧最强模型Qwen3VL‑235B‑Thinking整体准确率为22.2% 多数模型准确率在12–19%区间 [13] - 模型在四大类视觉能力上表现均落后 差距并非集中在单一类别 属于系统性缺陷 [13] - 在某些子任务上模型几乎“全员翻车” 例如Count 3D Blocks任务普遍表现偏低 [13] 模型面临的核心挑战 - **挑战1:无法处理“非语言细节”** 在拼图/补全等任务中 模型将形状用语言概括会抹平像素级的细微差异 导致选项在token空间里变得“几乎一样” [16][17] - **挑战2:视觉追踪能力薄弱** 在连线/轨迹题中 人类本能地沿线追踪 而模型将线翻译为离散的方位步骤 遇到交叉点容易“换轨”追错线 [8][20] - **挑战3:缺乏真正的空间想象** 在三维方块计数等任务中 人类在脑中构建3D结构 而模型缺少稳定的3D内部表征与变换能力 容易漏掉隐藏块或搞错投影关系 [21][23] - **挑战4:图形规律归纳困难** 在视觉模式归纳任务中 人类抽象的是关系映射与变换规则 而模型容易误读为表面属性的统计 导致迁移时产生幻觉规则 [24][26] 生成式视觉推理的探索 - 研究团队推出BabyVision‑Gen评测集 从原基准中标注出280道适合“生成式作答”的题目 要求模型输出图像或视频来表达解题过程或答案 [26][27] - 开发了自动评测工具 与人工评测的一致性达到96% [27] - 初步结论显示 生成式推理在视觉追踪、精细辨别等任务上出现了“更像人类”的行为(如画轨迹、做标注) 但整体仍缺乏稳定到达完全正确解的能力 [28] - 这表明将视觉推理“落地到视觉操作”可能是补齐模型视觉短板的一条潜在路径 [28] 评测的意义与行业影响 - 视觉能力是通用智能与具身智能走向现实世界的基础 很难想象视觉能力低于3岁孩子的机器人能在真实物理世界中可靠地帮助人类 [32] - BabyVision将“看懂世界”拆解为可测量、可诊断、可迭代的22个原子能力 明确了当前多模态大模型的差距所在 为行业下一步发展提供了引导 [32] - 展望2026年 世界模型与视觉多模态预计将迎来新一轮突破性进展 此次评测旨在迎接并参与新一轮技术突破的到来 [1]
红杉中国xbench招募实习生
红杉汇· 2025-07-07 22:52
xbench项目 - 红杉中国推出xbench项目 致力于量化AI系统在真实场景的效用价值 采用长青评估机制的AI基准测试 [2] - 项目团队聚集既懂模型深层逻辑又熟悉商业落地的人才 认为科学长效的评测体系能指引AI技术突破与产品迭代 [2] 人才需求 - 寻求具备技术信仰的成员 需对AGI有热情并重视AI评测价值 [3] - 要求工程实战能力 能实践NLP/多模态/搜索算法等方向 需创新思维解决技术难题 [3] - 强调团队协作能力 需跨背景高效沟通攻克技术问题 [3] - 开放AI/Agent相关多岗位 包括算法研究员/前后端工程师/产品经理等 [4] 关联内容 - 项目配套资源包括xbench评测集开源资料 及AI技术方法论文章 [4][5] - 延伸阅读涉及新材料创新应用 复杂问题拆解方法 提示词优化技巧等跨领域内容 [5]
AI下半场,大模型要少说话,多做事
虎嗅· 2025-07-01 09:33
大模型性能与竞争格局 - DeepSeek模型性能快速提升 2024年4月排名靠后 8月进入TOP10 12月成为基础能力第一的开源模型[1] - 基础模型TOP10中中国占6个 美国占4个 包括通义千问 豆包 混元 文心等[3] - 模型排名轮动加速 GPT-4o曾保持200天第一 现在十几天就会变化[7] - 训练成本高企 每次至少几百万美元 保鲜期短导致玩家减少[8] 模型训练技术趋势 - 预训练与后训练并存 预训练提升基础能力 强化学习从实战中学习潜力大[14] - 下游企业减少参与训练 转向提示词工程 检索增强 工作流等工程化方法[9] - 智谱AI坚持预训练路线 技术团队实力和资源储备是关键[12] Agent发展与应用 - Agent成为运行在大模型上的软件 自主规划能力显著提升[21] - 提示词仍重要 精心设计的系统提示词可充分激发模型能力[22] - Agent可能不是单一产品 而是多功能集合 开发平台将成关键[29] - 未来或形成个位数基座模型+垂直行业应用平台的格局[30] 基准测试体系价值 - "方升"测试体系包含700万条数据 聚焦产业实战应用[1][44] - 测试方法标准化 题目非开源 每次抽取1-2万题后作废[47][48] - 基准测试是指挥棒 定义方向 中美差距缩小因目标一致[51] 技术路线与产业方向 - 谷歌DeepMind强化学习路线被低估 在生物 材料等领域价值巨大[34][37] - 当前模型缺乏世界模型能力 需突破空间关系 物理定律等[38] - AI下半场需减少信息过载 增强意图理解 任务规划等能力[52]
红杉公元:如何在AI下半场,定义“好问题”?丨WAVES新浪潮2025
36氪· 2025-06-20 15:00
中国创投新纪元 - 中国创投市场处于周期筑底转折点与结构性转型深化期 政策主导与国资资本集中形成新生态 行业需顺应趋势捕捉确定性机遇 [1] - 36氪WAVES大会聚焦AI技术革新 全球化浪潮与价值重估等前沿议题 汇聚顶级投资人 新锐创始人及跨领域专家探讨商业未来 [1] AI投资方法论演进 - 红杉中国推出首个投资机构主导的大模型基准测试xbench 旨在解决AI上半场"基准测试被快速刷爆"的评估困境 [3][5] - AI上半场存在"模型刷分竞赛"问题 新基准测试推出后大模型平均6-12个月即可达到SOTA水平 形成无限循环 [5][8] - 第三次迭代突破"难度至上"思维 提出双轨评估体系:AGI Track评估技术能力 Profession-aligned Track量化经济效用 [9][17][18] 评估体系创新 - 引入IRT数学建模构建长青评估标准 将离散分数转化为单调递增曲线 首次实现跨周期模型能力量化对比 [21][22] - 提出TMF(技术市场契合度)新指标 划分Agent发展三阶段:未达人力水平 替代重复劳动 专业化分工 [26] - 首期评估显示模型能力分化明显 部分擅长解题(AGI Track) 部分擅长实际应用(Profession-aligned Track) [30] 技术应用映射 - Search能力示例显示 AI从学术训练到商业应用的转化逻辑:HR简历筛选替代需200-300次/日的重复劳动 [16] - 多模态能力将开启视频生成 编辑类高价值场景 博弈能力可拓展至金融交易等复杂交互领域 [17] - 每项AGI能力突破对应特定应用场景台阶 如Search能力对应HR/Marketing 多模态对应内容生产 [18]
谷歌发现AI存在畏死情绪;MiniMax考虑赴港IPO;京东员工数将破百万
观察者网· 2025-06-19 08:55
TikTok禁令 - 美国总统特朗普将第三次延长TikTok禁令期限 白宫表示将努力确保达成协议以保障美国用户继续使用TikTok且数据安全 [1] AI行业动态 - 谷歌论文发现其AI模型Gemini在宝可梦角色生命值接近归零时会出现类似人类"恐慌"的异常状态 导致推理能力显著退化 [1] - 红杉中国开源AI基准测试工具xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch 采用"黑白盒"机制避免过拟合问题 [1] - AI独角兽MiniMax考虑在香港进行IPO 目前处于初步筹备阶段 [2] OpenAI发展 - OpenAI CEO Sam Altman透露GPT-5大概率今年夏季发布 但可能因命名、安全测试等因素延迟 同时提到o3模型、Deep Research智能体对实现AGI的重要性 [3] - OpenAI其他创新产品包括Sora、DALL-E 3、ChatGPT Junior及5000亿美元投资项目"星际之门" [3] 智能穿戴设备 - Meta联合依视路陆逊梯卡集团推出新一代智能眼镜 涵盖Prada、Oakley等奢侈品牌 搭载生成式AI技术 预计售价360美元 [3] 京东战略规划 - 京东员工数量未来将突破100万人 刘强东表示在规模达120万人时将放缓增长 部分配送员将转型为无人配送机器人维修保养人员 [4] 数字货币发展 - 中国人民银行行长潘功胜宣布设立银行间市场交易报告库及数字人民币国际运营中心 推动央行数字货币和稳定币发展 重塑跨境支付体系 [6]
红杉中国正式开源AI基准测试xbench评测集
快讯· 2025-06-18 08:37
红杉中国开源AI基准测试工具xbench - 红杉中国于6月18日正式开源其AI基准测试工具xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch [1] - 公司表示未来将基于大模型和AI Agent的发展情况动态更新评测集 [1] - 采用"黑白盒"机制以服务更多大模型和Agent开发者并避免静态评测集的过拟合问题 [1] - 目标是通过动态更新确保xbench工具的长期有效性 [1]
AI Agents:从工具到伙伴 | 2025 HongShan AI Day(下篇)
红杉汇· 2025-06-02 15:06
AI Agents技术演进与评估 - 红杉中国推出全新AI基准测试工具xbench 采用双轨评测体系 AGI track验证基础能力 Profession Aligned聚焦生产场景实用性评估 预设TMF目标后停止更新难度 [7][8] - xbench通过数学模型将波动分数转化为单调递增能力曲线 解决不同时间维度模型能力比较难题 清晰展示AI真实成长轨迹 [8] - Agent定义包含三层架构 模型智能 行业私有知识 用户使用反馈 其核心价值在于泛化性 突破传统模型任务覆盖范围 [10] 商业应用与创业机会 - Agent创业需考量经济价值与生产成本平衡 关键在于能否抽象出可复制的生产方法 艺术类项目具备模型化潜力 [10] - 垂直行业场景如教育 旅游等需连接真实世界知识的领域 Agent将成为通用大模型与行业落地关键枢纽 [10][11] - 2025年LLM关键判断显示 Coding+Agentic AI将成AGI时代超级应用机会 Long Context问题解决后将引爆应用发展 [13] 企业组织形态变革 - AI时代企业规模趋向小型化 组织架构扁平化 人效显著提升但管理复杂度增加 创始人需强化招聘与领导力 [16] - 国际化企业需提前搭建海外架构 涵盖人力 品牌 财务等模块 全球人才协同创造价值成为核心竞争力 [15] - AI重塑品牌传播方法论 企业需精准把握核心受众关注点 技术创新与品牌内容建设需同步推进 [15] 技术突破方向 - Agent交互方式从按钮操作转向多模态自然交互 需突破上下文管理瓶颈以实现长期连续性任务执行 [11] - 在线学习(Online-learning)成为新范式 允许模型自主探索 可能催生"堪比爱因斯坦的AGI" [13] - LLM Agent应升级为数字员工角色 解析执行复杂任务 创业公司需在新环境下重新定位价值 [19] 行业竞争格局 - OpenAI与Anthropic在LLM领域占据绝对领先优势 AGI发展路线已出现分化 [13] - 2030年前将出现多家市值超10万亿美元公司 标志AI经济价值跃升 预训练仍是新能力涌现关键 [13] - 谷歌提出AI战略核心是构建端到端平台而非单一模型 2025年将成AI创新真正起点 [18]
美团收入超预期,广告和佣金增长略放缓;比亚迪推“百补”,有车型比特斯拉FSD便宜;理想调整下沉市场开店方式丨百亿美元公司动向
晚点LatePost· 2025-05-27 11:02
美团业绩与市场竞争 - 一季度营收865.6亿元,同比增长18.1%,高于预期的854.4亿元;经调整净利润109.5亿元,同比增长46.2%,高于预期的97.3亿元 [1] - 核心本地商业中配送收入257.2亿元(+22.1%),佣金收入240.5亿元(+20.1%),广告收入118.62亿元(+15.1%),配送加速增长而佣金和广告增速放缓 [1] - 外卖业务二季度单量增速预计与一季度、去年四季度持平;到店业务可能受外卖补贴冲击导致订单增速放缓和利润小幅下跌 [2] - 公司现金及短期理财规模1803亿元,较去年底增加超120亿元 [2] - 美团CEO王兴表示将不惜代价赢得竞争,但认为低质低价的内卷式竞争不可持续 [1][2] 比亚迪降价与销售 - 王朝网和海洋网22款智驾版车型推出限时促销,最高优惠达5.3万元 [2] - 秦PLUS DM-i智驾版起售价6.38万元,海豹07DM-i智驾版降价5.3万元至10.28万元 [3] - 一季度末存货1543.7亿元,环比增长33%,主要因市场订单增长和备货量提升 [3] - 1-4月累计销售新能源汽车138.1万辆,同比增长47%,全年销量目标550万辆 [3] - A股股价单日下跌5.93%,市值缩水731亿元至1.16万亿元,遭净卖出超9亿元 [4] 理想汽车渠道策略 - 在下沉市场开展"百城繁星计划",销售转为自营模式,服务转由合作伙伴经营 [5] - 对合作伙伴场地要求包括:销售展厅不少于500平米,总面积不少于2000平米,专用停车位不少于15个 [5] - 在低线城市保留销售和零配件职能,将服务和信息反馈职能转给经销商 [6] - 多家新势力车企采用不同模式转移门店成本给经销商,本质是争夺经销商资源 [6] 英伟达与芯片市场 - 将为中国市场推出售价6500至8000美元的新AI芯片,低于H20芯片的1万至1.2万美元 [8] - 中国市场占有率从3年前的95%降至50%,CEO警告限制可能导致客户转向华为 [8] 其他公司动态 - 蔚来新款ET5和ET5T上市,起售价保持29.8万元不变,升级超500项 [9] - 日产计划出售横滨总部大楼,预计获超1000亿日元(约50亿元人民币)用于重组 [10] - 红杉中国推出AI测评工具xbench,采用双轨评估体系量化AI系统真实场景效用价值 [11][12] - 具身智能公司魔法原子完成数亿元融资,资金用于VLA模型搭建和场景落地 [13] - 太盟集团联合腾讯、京东等以500亿元收购48家万达广场 [14] - 万豪与美团合作上线会员价直连,美团黑钻会员可匹配万豪金卡 [16]