Workflow
量子位
icon
搜索文档
成立两年半登顶全球AI创作社区,背后是中国团队在“卖情绪”??
量子位· 2026-01-22 19:13
平台概况与市场地位 - 平台名为SeaArt,是一个具备全链路多模态AI创作能力的平台,包括图片、视频、音频、数字人生成[3] - 平台全球访问量已超过Midjourney、Leonardo、Civitai,注册用户超过5000万,月访问量超过3000万[1] - 平台年度经常性收入超过5000万美金,用户单日能生成2000万张图和50万个视频[1] - 平台并非单一工具,被定位为“AI时代的全民级创作消费平台”[6] - 平台已构建去中心化的PUGC生态,官方称之为去中心化的“品味市场”[53] - 平台已积累全球规模最大的AI原生创作资产库之一,涵盖超过200万个AI创作SKU[55] 核心产品SeaVerse(SeaArt 2.0)功能 - SeaVerse是全新推出的全模态创作消费平台,相当于SeaArt 2.0,旨在帮助创作者打造AI时代的个人IP[8] - 平台依托多模态AI与Agent专家协作系统,通过“一句提示词生成宇宙”的极简交互,整合观看、游玩、创作、变现等场景[12] - 用户只需输入自然语言指令,即可生成图片、视频、音乐、小游戏或交互式应用[14] - 系统内置二十多个专项工具,如图像美化、一键抠图、动画细化,并可自动匹配调用底层模型与工具组件[16][17] - 在视频生成上,平台能拆解分镜、分段生成素材,再拼接整合,突破单次仅生成十几秒的局限,可生成一分钟带专属配乐的完整视频[28][30] - 生成的角色一致性保持相对稳定,且支持用自然语言在原有基础上修改,无需重新生成[23][31] - 可生成完整动画短片及音乐,例如根据描述生成复古童话风动画,或生成“马年新春祝福歌”完成作词、编曲与生成[27][32] - 所有生成素材保存在资源库,方便随时取用,生成的应用可在平台内一键发布分享[24][33] 技术架构与战略定位 - 团队明确不自研基础大模型,专注于应用层、内容层和体验层设计,定位为“应用层的调度者”[38][39] - 核心能力建立在模板体系、工作流引擎与算力调度系统之上,通过模板化、工作流与Agent架构降低用户创作门槛[40][44] - SeaVerse引入了多Agent协同工作流,配备面向影视、游戏等不同领域的制作Agency,将行业知识转化为可调用的AI工作流[41][43] - 调度系统将开源与闭源模型统一视为底层能力单元,按需调用、组合与编排[44] - 团队早期游戏行业经历积累了强大的算力资源调度和工程能力,使算力成本实现规模效应[50] - 护城河在于算力运营、用户洞察与生态构建的综合维度,而非单一技术[50] 团队背景与发展路径 - 背后团队为国内AI初创公司海艺互娱,成立于2023年[44] - 联合创始人马飞(CEO)与陈立(董事长)均拥有十余年游戏行业经验,曾参与《银河帝国》、《斯巴达战争》、《黑道风云》等爆款手游研发[45] - 2019年两人联合创立游戏公司星合互娱,旗下SLG游戏《The Ants-小小蚁国》海外连续两年流水超10亿元[45] - 团队利用AI为游戏业务提效后,决定跨足AI领域创立海艺互娱[46] - 出海游戏经验赋予平台全球化基因,率先进入巴西等市场,后布局日本、欧洲、美国等高付费市场[48] - 将构建SLG游戏复杂生态的能力,用于维系高粘性创作者社区的运营[50] 增长数据与生态运营 - 过去两年,海艺互娱的用户规模与收入每年均增长4-5倍[51] - 2024年,平台用户规模同比增长7.7倍,收入同比增长5.5倍[51] - 2025年通过发力多模态与视频创作,平台流量与收入持续加速增长[52] - 平台推出创作者激励机制,头部创作者已能实现每月3000-4000美元收益[54] - 平台上有大量用户持续使用Stable Diffusion 1.5等旧版本模型,消费核心是创作风格而非模型版本[54] - SeaVerse的上线进一步打通了“创作→发布→互动→二创→变现→再创作”的闭环机制[55] - 发展路径清晰:从工具切入,沉淀内容生态,进阶为多模态创作社区,最终锚定AI互动娱乐平台[56]
最强大模型的视觉能力不如6岁小孩
量子位· 2026-01-22 19:13
文章核心观点 - 当前顶尖多模态大模型在视觉推理能力上表现不佳,整体水平仅相当于或低于三岁儿童,与成年人水平(94.1)差距巨大[1][2][4] - 模型表现不佳的根本原因在于其主流架构依赖将视觉信息转化为语言进行推理,导致大量无法被语言精确描述的细粒度视觉信息丢失[11][20][21] - 未来的多模态智能发展需要从底层重建视觉能力,探索绕过“语言瓶颈”的新架构,例如基于生成模型的视觉推理[11][68][71] 模型在BabyVision基准上的表现 - 在BabyVision视觉推理基准测试中,表现最佳的闭源模型是Gemini 3 Pro Preview,得分仅为49.7%[14] - 其他前沿闭源模型得分更低:GPT-5.2为34.4%,豆包-Seed-1.8为30.2%,Qwen3-VL-Plus为19.2%,Grok-4为16.2%,Claude-4.5-Opus为14.2%[14][15] - 表现最好的开源模型是Qwen3VL-235B-Thinking,总分为22.2%,但仍远低于顶尖闭源系统[16][18] - 所有模型的表现与六岁儿童相比仍有约20%的差距,与成年人94.1的水平更是天壤之别[2][4] 当前多模态大模型面临的视觉核心挑战 - **非言语性精细细节的缺失**:模型将视觉输入转化为粗略的语言描述,导致如精确几何形状、边界曲率、像素级差异等无法被语言描述的细节丢失,在“找拼图”等任务中出错[25][26][29][30] - **流形一致性的丢失**:模型难以在长距离空间中维持感知一致性,例如在“连线任务”中,将连续曲线拆解为指令序列后,在交叉点容易走错路径[31][34][35][36] - **空间想象力的不足**:模型难以从二维图像构建稳定的三维内部表征并进行心理变换,在从特定视角想象物体形状的任务中,因空间信息在文本摘要中被压缩而犯错[39][43][44][45] - **视觉模式归纳的困难**:模型难以从少量视觉示例中总结通用变化规则,通常采用数属性的文本匹配方式,而非理解视觉关系的变化逻辑,在“找规律”任务中出错[47][48][50][51][52] 改善视觉推理的潜在技术方向 - **基于可验证奖励的强化学习(RLVR)**:在Qwen3-VL-8B-Thinking模型上进行RLVR微调后,整体准确率从13.1%提升至17.9%,提高了4.8个百分点,在细粒度辨别、空间感知和视觉模式识别等子类任务上均有提升[55][56][57] - **基于生成模型的视觉推理**:研究通过BabyVision-Gen基准评估生成模型,NanoBanana-Pro表现最优,整体准确率达18.3%,GPT-Image-1.5和Qwen-Image-Edit分别为9.8%和4.8%[60][61] - 生成模型如NanoBanana-Pro、Sora-2展现出显式视觉思维,能够沿逻辑路径生成物理轨迹,但单纯的生成能力仍需稳健的视觉语义理解引导[62][66] - 统一架构(如Bagel)允许模型在推理过程中保留高保真视觉表征,在视觉空间内进行“显式思考”,支持“生成本身即是推理的一种高级形式”的观点[68][69][70][71]
大模型Infra新突破!腾讯混元开源LLM推理算子库,推理吞吐提升30%
量子位· 2026-01-22 19:13
文章核心观点 - 在大模型竞赛中,计算效率是关键瓶颈,单纯堆叠算力(显卡)已不足够,提升效率成为新的竞争焦点 [1] - 针对当前主流算子库在H20等推理卡上性能不佳、开发门槛高等痛点,腾讯混元AI Infra团队开源了生产级高性能LLM推理核心算子库HPC-Ops [2][4] - HPC-Ops通过底层架构优化,显著提升了核心算子性能,并在真实场景中验证了其能大幅提升模型推理效率 [5][6][47] 行业背景与痛点 - 大模型时代,计算效率是AI应用及发展的关键瓶颈 [7] - 现有主流算子库(如FlashInfer、DeepGEMM)主要针对NVIDIA H800等高配训练卡优化,与国内主流线上推理服务采用的H20等推理卡不匹配,难以发挥硬件峰值性能 [7][8][13] - 业务侧对极致吞吐、低延迟及复杂量化策略(如Blockwise FP8)的需求日益迫切,亟需更适配的底层支持 [9] - 现有主流算子库存在两大痛点:1) 设计复杂,修改适配成本高,阻碍了量化算法等加速研究的创新落地 [11][12];2) 目标硬件不匹配,导致在国内主流推理卡上无法发挥全部性能 [13][14] HPC-Ops解决方案概述 - 腾讯混元使用CUDA和CuTe从零构建了一套轻量、高效的LLM核心算子库HPC-Ops [4][15] - 该库包含FusedMoE、Attention、通信、Norm、Sampler及各类融合算子等核心模块 [16] - 其设计目标是通过抽象化工程架构、微架构深度适配及指令级极致优化,降低开发门槛并将核心算子性能逼近硬件峰值 [4] 核心技术细节 - **任务特性与硬件能力对齐**:针对访存瓶颈算子,通过调整指令发射顺序进行数据预取优化,确保高数据传输利用率;针对不同问题规格做细致指令对齐,去除冗余指令,使访存带宽可达硬件峰值能力的80%以上 [19][20] - **精细的任务调度和数据重排**:重新思考任务数据划分调度策略,保证任务均衡与cache连续性;采用persistent kernel隐藏开销;通过数据重排减少额外操作和显存占用,如在FP8 Attention Kernel中采用Interleave重排技术提升性能 [22][23][24] - **聚焦计算逻辑本身**:基于CuTe扩展开发vec抽象层统一负责高效数据搬运,利用Layout代数抽象隔离复杂的Tiling与计算逻辑,让开发者能聚焦于算法本身,降低维护门槛 [26] 性能提升数据 - **端到端推理性能**:在真实场景下,基于HPC-Ops,混元模型推理QPM(每秒查询数)提升30%,DeepSeek模型QPM提升17% [5][27] - **单算子性能对比**: - Attention算子相比FlashInfer/FlashAttention最高提升2.22倍 [6][44] - GroupGEMM算子相比DeepGEMM最高提升1.88倍 [6][31] - FusedMoE算子相比TensorRT-LLM最高提升1.49倍 [6][36] - **具体场景性能**: - **GroupGEMM**:在Batch<=64的低延迟场景下优势显著,较DeepGEMM最佳表现最高提升1.88倍 [31] - **FusedMoE**:在TP(张量并行)场景下相比TensorRT-LLM最大性能提升达1.49倍;在EP(专家并行)模拟均衡场景下最大提升1.09倍 [36] - **Attention**: - Prefill场景(输入长度128~64K):batch较小时,BF16精度下相比SOTA实现提升1.3倍;大batch时与SOTA对齐 [42][43] - Decode场景:BF16精度下提升1.35倍~2.22倍;FP8精度下,当Sequence Length较大时相比SOTA提升1.09倍~2.0倍 [44] 当前能力与集成 - HPC-Ops已在腾讯大规模生产环境中完成验证 [47] - 提供简洁易用的API,可无缝对接vLLM、SGLang等主流推理框架 [48] - 原生支持BF16、FP8等多精度量化方案 [48] - 以CuTe、CUTLASS为基础,提供数百行代码即可构建SOTA算子的实践范例,降低高性能CUDA内核开发门槛 [49] 未来发展方向 - 重点研发稀疏Attention算子,以解决长上下文大模型的内存与算力瓶颈 [51] - 拓展更丰富的量化策略,覆盖4bit/8bit混合精度等更多量化方案,进一步平衡推理速度与模型精度 [51] - 布局计算-通信协同优化的内核,通过融合多GPU间的计算与通信流程,大幅降低分布式推理场景下的通信开销,支撑超大规模模型高效部署 [51] 开源与社区 - HPC-Ops已在GitHub开放源码供开发者下载使用 [52] - 腾讯混元Infra团队欢迎行业技术实践者提交高价值PR,参与算子边缘场景优化、教程案例打磨等贡献,共同推动技术发展 [52]
大学开始用AI招生了
量子位· 2026-01-22 15:37
AI在招聘与招生领域的应用趋势 - AI技术已从企业招聘筛选简历和视频面试,延伸至高校招生审核入学申请材料[1][4][5][6] - 美国弗吉尼亚理工大学采用AI审核学生申请材料,节省了约8000小时人工工作量,并使录取结果发布时间提前一个月[2][16][17] 高校采用AI招生的驱动因素 - 美国许多高校将SAT/ACT考试改为可选项目,导致申请门槛降低,申请人数爆发式增长[8] - 以弗吉尼亚理工大学2025年秋季招生为例,计划招收约7085名新生,但收到了超过5.7万份申请,每份申请包含四篇短文,总计产生超过20万份待审阅文书[10][11][12] - 传统人工审核流程中,每篇短文需由至少两位人类阅卷员审阅,差异大时还需第三位审核,工作量巨大[13] AI在招生中的具体运作模式 - 弗吉尼亚理工大学采用“AI+人工协同”模式,每位申请人的每篇文章由一名人类和AI分别评分,评分不一致时再由另一位审核员打分[14][15] - 该模式显著提升了审核效率[16] 对AI招生公平性与多元化的质疑 - 有观点认为AI模型基于历史数据训练,可能带有喜好偏见,倾向于偏好特定背景或措辞风格的学生,从而可能扼杀大学的多元化[20][21][23] - 麻省理工学院一位经济学教授指出,高校过度依赖同一种AI模型进行排名或决策非常危险[19] - 纽约大学教授Meredith Broussard表示,很少有家长会对用AI决定孩子人生重要事情感到兴奋[25] AI应用引发的博弈与应对 - 在招聘领域,求职者已开始使用AI面试模拟器生成符合算法审美的“标准答案”来应对AI面试[27][28] - 在高校招生环节,学生也可能使用AI辅助撰写或优化申请材料,导致出现“AI选AI”的情况[29][31] - 部分高校如布朗大学已采取措施限制,仅允许用AI辅助检查拼写和语法错误,要求申请材料简答题必须原创[32]
2025最强AI产品一文看尽丨量子位智库年度AI 100
量子位· 2026-01-22 15:37
2025年中国AI产品市场格局与趋势 - 2025年国内AI市场以智谱和MiniMax两家大模型公司启动上市进程收尾,标志着市场发展进入新阶段 [3] - 2025年被视作“AI应用元年”,行业经历了从“功能叠加”到“系统重构”的质变,竞争焦点从模型能力转向用AI重新定义场景 [5][6] - AI产品的用户高度集中于头部应用,Web端TOP5产品的月活跃用户(MAU)在所有AI产品中占比超过62%,APP端TOP5产品的日活跃用户(DAU)占比超过65% [12] 旗舰AI 100榜单核心发现 - 旗舰AI 100榜单评选出2025年综合能力最强的100款AI产品,这些产品在技术突破和实际应用场景中均展现出巨大价值 [8] - 头部产品如QQ浏览器、夸克、DeepSeek、豆包等在Web端和APP端用户数据大幅领先,已成长为国民级应用 [11] - 百度文心助手、WPS、腾讯元宝等产品在Web端或APP端稳定在TOP5的第一梯队 [11] - 从赛道分布看,AI通用助手和AI工作台是最热门方向,用户规模显著领先 [12] - AI编程与开发平台、AI创作平台、AI消费级硬件、AI搜索、AI教育、AI文档等赛道也有至少5款产品凭借卓越数据表现进入该榜单 [12] 创新AI 100榜单核心发现 - 创新AI 100榜单旨在挖掘2025年崭露头角、2026年具备爆发潜力的创新产品,代表了AI技术的前沿方向 [13] - 榜单中除了AI工作台、AI编程与开发平台等成熟赛道,还涌现出AI消费级硬件、AI剪辑、AI漫剧、AI图表、AI输入法、AI平面设计、AI音乐、AI知识管理等细分赛道产品 [16] - 这些在垂直赛道耕耘的创业产品,其通过用户与数据沉淀打造壁垒的成败,将在2026年得到进一步验证 [18] 十大热门细分赛道代表产品 - 为精准反映细分领域发展,榜单对10个热度最高的赛道进行专项提名,每个赛道评选出TOP3产品 [19] - 这十大赛道依次为:AI浏览器、AI Agent、AI智能助手、AI工作台、AI创作、AI教育、AI健康、AI娱乐、Vibe Coding和AI消费级硬件 [19] - 这些赛道在2025年聚集了最大规模的用户,其中的代表性产品凭借创新功能、工程化设计、强大AI能力及丰富生态而崭露头角 [22][23] AI 100榜单评估体系与方法论 - AI 100榜单是量子位智库推出的AI产品风向标系列,旨在提供AI技术驱动下产品创新与变革的第三方参考 [25] - 榜单目前主要由代表当前领军阵营的“旗舰AI 100”和代表未来种子选手的“创新AI 100”构成,按季度发布 [25] - 评估采用定量与定性相结合的双重体系 [26] - 定量层面以真实用户数据为基础,涵盖用户规模、增长、活跃、粘性四大维度,包含超过20个具体指标;硬件产品则考察出货量 [26] - 定性层面聚焦长期发展潜力,通过专家评估和用户调研,综合考量产品的底层技术、市场空间、功能设计、变现潜力等多重因素;硬件产品考察功能设计和实际体验 [26]
57.1%的人分不清真假!Runway新视频模型太爆炸
量子位· 2026-01-22 13:39
Runway Gen 4.5模型的核心能力 - 全新Gen 4.5模型主打图生视频,在镜头控制和故事叙事能力上显著提升[8][9] - 模型能在5秒内快速生成包含近景、中景、远景三个镜头的视频[11] - 在1000人参与的调查中,只有约一半(57%)的人能分辨出该模型生成的视频与真实视频的区别[11][21] 模型在镜头控制与一致性方面的表现 - 即便镜头晃动,人物面部仍保持较高一致性[12] - 在快速运动场景下,如骑飞行章鱼,人物面部细节稳定不崩坏[13] - 复杂场景中,如巨型毛绒猩猩在纽约街头,镜头比例、透视逻辑及主体与背景的光影一致性处理得当[15] - 模型具备精准的镜头控制能力,包括景别、角度、运动轨迹及切换节奏,输出效果接近真实摄影语言[16] - 通过图像参考和内部优化,模型实现了更稳定的角色一致性,主体在不同镜头中的跨帧效果更佳[16] 模型在长故事叙事与连贯性方面的进步 - 模型长故事表达能力增强,能承载更长时序的内容结构,视频完整度和长度大幅提升[16] - 多个镜头之间的情节逻辑性更强,叙事表达比上一版本更到位[16] - 在长达两分多钟的剧情视频中,即便在同一场景多次切换镜头位置和动作,画面空间关系和镜头衔接依然保持连贯,无明显跳轴或场景漂移问题[18] - 用户制作的视频展示了出色的镜头漂移感,能流畅切换特写与远景镜头[18] 视频生成行业的整体发展趋势 - 从去年年底至今,视频模型能力进入新一轮升级期,各厂商发布节奏密集[23][35] - 行业整体趋势对视频模型的真实度和一致性要求被整体抬高,包括纹理与细节保真、光影与氛围、整体画面质感等[25][26] - 模型越来越注重理解并遵守现实世界的物理规律,在跨帧表现上要求更自然[27] - 声画同步能力显著提升,模型可直接生成配套音频,唇形同步精度提高,即使在侧脸、极端角度或多人对话场景也不易崩坏[28][30] - 局部控制精细化成为重要趋势,支持单独编辑局部区域而无需重新生成整段视频[28] - 支持更长的生成时长,10至60秒的视频生成区间变得常见,竖屏原生视频逐步占据主流[28] - 视频生成方式更加多元,从图生视频到音频生视频,创作路径更加灵活[28] - 主流视频模型的能力已明显接近可商业化应用、具备普适性的水平[34]
谷歌Gemini变身免费家教:接入全真模考,错题还能掰碎了讲
量子位· 2026-01-22 13:39
Gemini在SAT备考领域的应用 - 谷歌推出免费通过Gemini进行SAT模拟考试的功能,为备考学生提供福利,可立即获得分数并讲解错题 [1] - 该功能与老牌教育机构The Princeton Review合作,整合了其经过验证的一整套SAT模拟题,有用户表示这使其花费1500美金购买的同类服务显得不划算 [7][8] - 模拟系统高度复刻真实SAT流程,分为阅读与写作、数学两大模块,每个模块细分为两个章节,难度循序渐进,并提供高度定制化设置,如关闭倒计时、立即显示答案、开启题目提示等 [9] - 实测体验中,数学部分题目被认为对中国学生较为简单,例如出现“如果4s=28,那么8s+13是多少?”这类题目 [10][11] - 在一次数学测试中,用户用时41分钟(模块1用时13:48分钟,模块2用时27:12分钟),获得710/800的分数,并可按知识点(如高等数学、代数等)查看详细答题情况与错题正确答案 [12] - 体验过程中发现一个小bug,一道读表题因表格未显示而无法作答 [13] - 该功能的核心价值在于错题解析,Gemini能将解题思路详细拆解,帮助用户定位薄弱环节,实现从盲目题海战术到精准私教课程的转变 [14][15][16] - 谷歌透露SAT只是第一步,未来计划将此类服务扩展到更多标准化硬核考试 [17] Gemini的产品化与商业化路径 - 谷歌正通过引入专业数据,推动Gemini在多个垂直行业成为解决具体问题的专家,例如在健康领域通过Fitbit变身懂身体数据的私人医生,在代码领域成为Android Studio中的编程助手 [19] - 公司的另一层战略是将Gemini能力深度融入用户的数字生活,使其无处不在 [20] - 在搜索领域,通过在搜索框中推广AI Overviews功能,Gemini能直接整理并呈现复杂问题的答案,旨在重构搜索体验并守住搜索引擎的流量入口 [21] - 在生产力套件中,Gemini正实现对Gmail和文档等数字资产的全面渗透 [23] - 最新发布的“Personal Intelligence”功能由Gemini 3模型驱动,打通了Gmail、相册、YouTube和Search四大核心应用,能整合用户过去10年分散在各应用的数据,实时串联成完整的个人生活图谱 [24] - 在硬件层面,Gemini正在抢占入口,例如在安卓系统上已全面接管Google Assistant的位置,利用端侧模型Gemini Nano提供系统级的屏幕感知能力,可直接理解当前APP界面内容并响应提问 [25] - 谷歌甚至与竞争对手苹果达成深度合作,苹果下一代基础模型将完全基于Gemini模型和云技术构建,预计年内上线的“个性化Siri”将由Gemini提供支持 [26] - 谷歌选择的商业化落地策略是整合个人数据与系统底层,而不仅是模型的智商竞争 [27]
Video版的Deep Research来了?先浏览再定位后精读:精度提升token消耗反降58.3%
量子位· 2026-01-22 13:39
文章核心观点 - 当前AI智能体在开放网络视频浏览与理解方面存在重大盲区,现有方法在精度与成本之间难以两全,研究团队提出的Video-Browser智能体及其金字塔感知架构,通过模拟人类“浏览-定位-精读”的认知过程,有效解决了这一矛盾,在保持高精度的同时大幅提升了效率[1][2][4][5][9][10][27] 现有视频处理方法的困境 - 视频是互联网上信息密度最高的模态,但现有AI智能体普遍存在视频处理盲区[2][4] - 现有方法面临两难困境:直接视觉推理方法效果好但计算成本极高,长视频会导致上下文爆炸;文本摘要方法成本低但会丢失关键的视觉细节[8] Video-Browser智能体架构 - 研究团队提出名为“金字塔感知”的架构,将视频处理过程视为一个计算量逐级增加、处理数据量逐级减少的金字塔[10][11] - 智能体包含三个核心组件:规划器、观察者和分析师[13] - 核心的观察者采用三层金字塔机制:第一层利用LLM分析视频元数据进行语义过滤,以零视觉成本快速剔除无关内容;第二层结合字幕和稀疏采样帧进行稀疏定位,找出可能包含答案的时间窗口;第三层在锁定的极短时间窗口内进行高帧率解码和精细视觉推理,将昂贵计算资源集中于最有价值的片段[14][15][16] 基准测试Video-BrowseComp - 为衡量真正的智能体能力,研究团队构建了Video-BrowseComp基准测试,其设计原则是“难以发现,易于验证”,要求智能体必须具备强制视频依赖能力[6][17] - 基准测试包含三个难度等级:第一级为有明确关键词的显式检索;第二级为需要理解描述的隐式检索;第三级为最难的、答案分散在多个视频中、需要拼凑线索的多源推理[18][19][20] 实验结果与性能 - 性能提升:基于GPT-5.2的Video-Browser在Video-BrowseComp上达到26.19%的准确率,相比直接视觉推理基线提升了37.5%[21] - 效率飞跃:得益于金字塔感知架构,智能体的Token消耗降低了58.3%[22] - 打破垄断:该方法在视频任务上的表现甚至优于OpenAI的o4-mini-deep-research模型[22] - 具体数据:在基准测试中,VideoBrowser (GPT-5.1) 的总体准确率为26.19%,在难度一、二、三级上的准确率分别为37.60%、11.29%和4.35%[23] 案例研究 - 以电影《白日梦想家》中主角口袋里的笔的颜色为例,展示了不同方法的差异:直接视觉推理因信息过载而失败;文本摘要因缺失细节而失败;而Video-Browser通过金字塔感知成功定位特写镜头并识别出笔为红色[24][25][26] 总结与资源 - Video-Browser是迈向智能体开放网络视频浏览的重要一步,通过模拟人类认知过程解决了精度与成本的矛盾[26][27] - 该工作的所有代码、数据和基准测试均已开源,旨在为社区提供新的研究支点[28][29]
马斯克下场抢人!xAI组建「人才狙击队」,极客版HR年薪168万
量子位· 2026-01-22 10:12
公司战略与招聘创新 - 马斯克亲自领导,xAI组建了一支直接向其汇报的“AI人才狙击队”,旨在快速、大规模地招聘优秀人才[1][2][3] - 该岗位被称为“人才工程师”,而非传统HR,要求由具备工程思维的“极客”担任,用工程师招工程师[6][7][9] - 招聘体系强调工程化,团队需亲力亲为参与全流程,并探索熟人推荐、线下活动、竞赛选拔等非常规渠道,而非依赖LinkedIn等常规市场[9][11][12] - 对应聘者要求极高:需具备技术直觉、熟悉Vibe coding、有动手做产品的经历、拥有极强的人际交往能力,并曾在高人才密度机构工作且有成功推荐/招聘经验[12][13][14][16] - 该岗位年薪范围为12万至24万美元(约84万至168万人民币),并配套股权等其他福利,公司希望能在两周内组建完成此团队[16][17] 公司扩张与业务进展 - xAI正处于全速扩张阶段,官网已放出数据中心、工程、金融、基础模型、基础设施等一长串岗位需求[24][25] - 公司第二座超算集群Colossus 2已正式投入运行,马斯克称其为全球首个GW级超算集群,并计划在4月升级至1.5 GW[27][28] - 有爆料称Grok 5将基于功率达1 GW的Colossus 2训练,参数预计达到约6万亿,是Grok 4的两倍以上,随着Colossus 2上线,Grok 5可能进入关键阶段[29][31] - xAI刚刚完成了200亿美元的E轮融资,为业务扩张提供了充足的资金支持[32][33] 行业竞争与人才环境 - 在极致技术导向的AI时代,科技公司对顶尖技术人才的渴望空前,模型背后的顶尖研究员数量很大程度上决定了智能的上限[18] - xAI的薪酬在行业中并非顶级,其“人才狙击队”年薪天花板为24万美元,而Meta最高的软件工程师年薪可达48万美元,相关AI岗位多在20万美元上下[34][35] - 马斯克的招聘策略不依赖天价薪酬,更强调绩效、使命感以及与领袖共事和公司愿景带来的吸引力,此前已成功吸引多名Meta高级工程师“降薪跳槽”[36][37][38][39] - 行业人才争夺战激烈,此前Meta的扎克伯格也曾亲自挂帅招聘,并为顶尖人才提供高达上亿美元的年薪,甚至亲自上门拜访招募[50][51][52][54] 公司文化与工作强度 - xAI的文化与马斯克长期推崇的工程文化高度一致,希望所有人都能是工程师,理解并解决技术问题[21][22] - 公司工作强度极大,有团队已连续四个月高强度冲刺,办公室配备了睡眠舱和双层床[41] - 员工需时刻担心被优化,此前有接近三分之一的数据标注团队被裁,且马斯克以对低绩效者容忍度低著称,特斯拉时期曾有“Elon的愤怒解雇”现象[44][45][46][48]
让机器人拥有本能反应!清华开源:一套代码实现跑酷、野外徒步两大能力
量子位· 2026-01-22 10:12
项目核心定位与目标 - 项目旨在为“本能级”人形机器人运动智能研究提供一个统一框架,以解决感知与运动割裂、工具链不通用两大行业痛点 [2] - 项目定位为模块化、可灵活配置的全链路工具包,让科研人员无需重复造轮子,专注突破核心技术 [1] - 整套工具包从算法设计、环境搭建到真机部署,全链路围绕“本能级”智能核心,支持高动态多接触动作的精准训练与野外复杂地形的稳健移动 [3] 框架设计与通用性验证 - 采用模块化设计,科研人员可根据研究需求自由组合工具模块,快速适配不同研究方向,无需从零搭建 [5] - 通过两大前沿工作验证了其通用性:一是高动态动作研究“DeepWhole-bodyParkour”,二是野外稳健移动研究“Hiking in the Wild” [3] - 在野外复杂地形中,机器人可实现稳定高速移动,最高速度达2.5米/秒 [9] 核心工具包功能详解 - **InstinctLab**:支持多样化环境生成,可导入真实场景扫描或一键生成训练场景 [10] - **InstinctLab**:内置“运动数据管理模块”,可导入人类动作捕捉数据并自动重定向适配机器人形态 [10] - **InstinctLab**:启用“深度感知融合插件”后,即便初始位置偏差50厘米,机器人也能自主修正,成功率100% [10] - **InstinctLab**:包含地形生成、地形边缘检测、足部体积点安全模块及“Flat Patch Sampling”模块,以训练机器人“本能避坑”和识别可行目标 [11] - **InstinctLab**:内置深度相机噪声模拟、虚拟障碍物生成、自适应采样等插件,可模拟真实感知条件并加速训练 [12] - **instinct_rl**:采用模块化强化学习架构,核心围绕“本能级”智能设计,可自由切换训练策略 [14] - **instinct_rl**:支持批量实验配置,可同时测试不同参数对“本能反应”的影响,快速迭代最优方案 [14] - **instinct_onboard**:集成ONNX加速、ROS2部署工具,支持Unitree G1等主流人形机器人,无需手动适配硬件接口 [15] - **instinct_onboard**:支持数据记录与推理进程分离,以及同一台机器人快速切换研究方向,无需重新实现部署代码 [15] 应用场景与研究成果 - **高动态动作研究 (DeepWhole-bodyParkour)**:聚焦“本能级技巧突破”,让机器人像运动员一样完成跪爬、鱼跃翻滚、高台翻越等多接触动作 [6] - **高动态动作研究**:核心是“感知-动作实时联动”,基于该框架仅需3步即可完成配置 [7] - **野外稳健移动研究 (Hiking in the Wild)**:聚焦“本能级环境适应”,核心是“风险预判+自主避障” [9] - **野外稳健移动研究**:基于该框架仅需切换配置即可落地,实现高速跑步跨越障碍物、跨越沟壑、稳定上下楼梯 [10] 开源价值与对科研社区的影响 - 项目已完全开源,科研者可免费获取覆盖场景搭建、强化学习训练、真机部署全流程的核心工具包及两大研究的完整配置文件 [19] - 为入门研究者提供预设配置,使其能快速启动实验并掌握核心研究流程 [17] - 为进阶研究者提供兼容性支持,使其仅通过切换配置文件即可在同一套工具链中验证融合高动态动作与野外移动的创新想法 [17] - 为项目迭代者提供便利,修改“本能反应”相关参数后无需重新编译代码,可一键重启训练,大大提升迭代效率 [18] - 研究团队计划未来扩展更多机器人硬件支持,并新增更多“本能级”动作库与复杂地形场景 [20]