Workflow
量子位
icon
搜索文档
7B模型“情商”比肩GPT-4o,腾讯突破开放域RL难题,得分直翻5倍
量子位· 2025-07-18 14:16
核心观点 - 腾讯混元数字人团队提出RLVER框架,通过用户模拟器同时扮演"交互环境"和"奖励来源"双重角色,解决多轮对话中RL训练的三大困境(环境、奖励、训练)[2][5] - RLVER训练后的Qwen2.5-7B模型在Sentient-Benchmark得分从13.3跃升至79.2,与GPT-4o、Gemini 2.5 Pro等商用顶级模型相当[2][16] - 模型在数学、代码等通用能力上未出现衰退,且行为风格从"解题型"转向"情绪型"[17][19] 技术框架设计 - **环境构建**:用户模拟器包含多样用户画像(性格/背景/需求),动态更新情绪状态,提供无限探索的真实对话环境[7][8][9] - **奖励机制**:基于SAGE框架显式建模用户情绪变化,累积"心情总分"作为奖励信号驱动PPO/GRPO算法[11][12][13] - **优化策略**:采用全局情绪轨迹优化(非单轮反馈),引导模型维持长期情绪走高[14] 性能表现 - **基准测试**: - Sentient-Benchmark:PPO+思考结构模型达79.2分(原始13.3分),成功率42%[16] - Chit Chat:PPO模型成功率52%,低于Sentient表现[16] - **横向对比**: - Gemini 2.5 Pro得分82.4(成功率55%) - GPT-4o得分79.9(成功率51%)[16] 训练洞察 - **模型路径差异**: - "思考式模型"侧重深度理解与共情[21] - "反应式模型"发展出行动导向补偿策略[22] - **算法选择**: - PPO在特定维度(如共情深度)突破上限[27] - GRPO带来更稳定均衡的能力增长[27] - **环境设计**: - Vanilla模拟器(包容反馈)优于Challenging模拟器(容错率低),前者训练模型Sentient得分79.2 vs后者66.4[29][30][32] - 显式思考结构提升模型抗打击能力(Challenging环境下得分66.4 vs非思考结构19.8)[33][36] 开源与资源 - 模型已开源,包含论文地址、项目代码及Hugging Face仓库链接[34]
大模型IMO25数学竞赛成绩公布了
量子位· 2025-07-18 14:16
大模型数学能力评估结果 - Gemini 2.5 Pro以超30%的总成绩断崖式领先 超出第二名89% [1] - o3和o4-mini分别位列第二、三名 Grok 4得分仅11.9且成本比Gemini高22% [2] - 测试采用统一提示词模板与Open Proof Corpus评估标准 最大Token限制64000 [5][6] 评估方法与流程 - 每个模型生成32个初始回答 筛选自评最优的四个答案取平均分作为最终成绩 [7][8] - 四名IMO级别人类评委匿名双评 每题满分7分 评分界面统一 [10][11] - 模型普遍在7分制下得3-4分 与人类表现差异显著 [12] 题目类型与模型表现 - 六道题目涵盖解析几何、平面几何、数论、博弈论和组合数学 [16][18][22][24][25] - 平面几何题(第2题)全员低分 Grok 4仅得4%(0.28分) [26][27] - 组合数学题(第6题)全员零分 几何与图形相关题目表现最差 [26][28] - 第四题模型方法接近人类但存在逻辑失误 第五题能识别策略但无法证明 [29] 模型能力演进观察 - 相比早期评估 模型过度优化答案格式的行为显著减少 [13] - Gemini在USAMO中编造定理的问题在IMO测试中大幅改善 [14] - Grok 4多数未选中答案仅陈述结果而无解释 表现低于预期 [14]
Meta全新AI组织架构曝光,这范儿有点字节
量子位· 2025-07-18 14:16
Meta的AI组织架构调整 - Meta内部整合出3400多人的新AI组织,由首席人工智能官Alexandr Wang领导,副手为前GitHub CEO Nat Friedman分管AI产品和应用[2][17][20] - 新架构分为4个团队:AGI基础研究团队(含高薪挖来的顶尖人才)、AI产品团队(主打Meta AI助手)、基础AI实验室(由Yann LeCun带队)、Llama 5研发小团队[5][12][19][23] - 原Llama团队面临重组,可能采用双轨制:闭源最先进模型(Llama 5)与开源次先进模型(Llama 4 1)[7][25] 人才招募策略 - 通过上亿美元薪酬包从OpenAI、苹果、谷歌等公司挖角30余名顶尖AI人才,组成"超级智能实验室"[10][12][14] - 实验室成员包括Scale AI创始人Alexandr Wang、前GitHub CEO Nat Friedman、DeepMind Gemini核心开发者Jack Rae等[12][16] - 出现"人挖人"现象,如苹果前AI负责人庞若鸣的同事Tom Gunter和Mark Lee相继加入Meta[29][30][32][33] 与字节跳动AI架构的对比 - Meta新架构被指模仿字节跳动的AI组织模式,尤其是AGI团队Seed的结构[37][38] - 字节Seed由吴永辉领导,采用扁平化管理,其多模态方向已由周畅接手,技术落地成果显著(如豆包大模型)[36][38][39][42][44] - 两家公司均采用三层架构:AGI前沿研究+基础技术分支+产品工程团队[46][47][48] 行业竞争动态 - Meta的激进挖角策略引发OpenAI人才流失,ChatGPT发布会中出现的华人研究者被调侃为Meta潜在招募目标[51][54] - OpenAI CEO奥特曼曾警告Meta的高薪挖角可能破坏公司文化,内部已出现老员工对新晋高薪人才的抵触[27] - 行业共识显示,头部公司需同时布局AGI研究、基础技术分支和产品化能力以保持竞争力[45][48]
突破户外RGB-only SLAM尺度漂移难题,精确定位+高保真重建 | ICCV'25开源
量子位· 2025-07-18 14:16
核心技术突破 - S3PO-GS框架首次实现RGB单目SLAM的全局尺度一致性,解决户外场景尺度漂移问题[4] - 自洽跟踪模块通过3DGS渲染生成尺度自洽的3D点云图,建立2D-3D对应关系消除位姿漂移误差[5] - 动态建图机制采用局部patch尺度对齐算法,校准预训练点云图与3DGS场景的尺度参数[5] - 联合优化架构通过点云替换策略和几何监督损失函数同步提升定位精度与重建质量[5] 性能表现 - 在DL3DV场景中跟踪误差降低77.3%,Waymo数据集PSNR指标达26.73刷新SOTA纪录[5] - 位姿估计迭代次数减少至传统方法的10%,在Waymo等复杂数据集实现精确相机追踪[21] - KITTI测试集PSNR提升至20.03,DL3DV测试集PSNR达29.97且LPIPS降至0.108[15] 技术实现路径 - 地图初始化阶段通过1000步迭代优化MASt3R预训练点云图构建初始3D高斯场景[6] - 跟踪阶段栅格化渲染相邻关键帧3D高斯点图,基于特征匹配估计尺度自洽相机位姿[8] - 动态建图阶段执行局部patch尺度对齐算法,筛选几何一致性点云计算最优缩放因子[9] - 联合优化阶段形成定位与重建闭环,相机位姿优化与高斯地图动态校准相互强化[10] 行业应用价值 - 技术适用于自动驾驶、机器人导航及AR/VR领域,提升SLAM系统在无界户外环境的鲁棒性[2] - 动态双向校准机制解决3DGS渲染点图几何缺失与预训练点图尺度失配的矛盾问题[11][12] - 渲染结果能精准捕捉车辆纹理、街道细节和建筑结构,深度图在复杂区域精度显著提升[16]
一年破千万美金,一款海外AI创意引擎爆发了
量子位· 2025-07-18 14:16
公司概况 - Creati是一家专注于AI创意引擎的公司,成立仅1年已累计千万用户规模,实现千万美金年收入[5] - 公司通过网红创意交易市场和AI模板化技术,革新广告创意生产流程[6][8] - 已吸引Shein、Cider、Fundango等大品牌客户[10] 商业模式创新 - 聚焦广告创意"道"层面而非视频生成"术"层面,构建差异化竞争壁垒[8] - 首创"病毒创意Canva"平台,连接网红创意与商家需求形成闭环[8][9] - 商家可10分钟生成100个网红创意视频,效率提升显著[12] - 网红通过模板分成获得持续收入,平台获客成本降低[17] 技术优势 - 自有AI模型能100%保留产品细节实现个性化重塑[9] - 内部模型解决电商商品展示一致性问题[20] - 创意大模型实现千人千面内容生成,商家切换会导致点击率下降20%[21][22] - 正在开发能自主生成创意的Agent系统,构建广告世界模型模拟营销效果[24][25] 市场定位 - 专注电商垂类,解决商家对Prompt输入和内容优化的痛点[18][19] - 与通用视频生成器形成差异化,类比Shopify与Wordpress的区别[20] - 通过Street Vogue案例验证商业价值,6个月帮助客户收入增长12倍[28] 增长策略 - 网红既是内容生产者又是增长引擎,形成内容驱动增长飞轮[14][17] - 聚焦创意入口定位,未来计划扩展至脑机接口等更广领域[29] - 通过数据闭环构建壁垒,累计千万用户形成网络效应[5][22] 行业影响 - 颠覆传统网红营销撮合模式,简化沟通流程提升产出效率[13] - 开创RaaS(Result as a Service)新模式,从SaaS升级为结果交付[25] - 解决90%视频生成内容未被利用的行业痛点[26]
真热AI!米哈游5亿成立新公司
量子位· 2025-07-18 08:30
米哈游AI战略布局 - 公司全资成立上海米哈游无定谷科技有限公司,注册资本高达5亿人民币,创下其在AI领域最大单笔投资记录[2][8] - 新公司经营范围覆盖软件开发、动漫游戏开发及人工智能应用软件等前沿领域[3] - 创始人蔡浩宇提出10-30年打造《黑客帝国》式虚拟世界的长期愿景[9] 技术研发体系 - 2018年成立"逆熵研究部"开发自研AI大模型Glossa,其数字人产品鹿鸣直播首秀吸引66万实时观看并收获150万订阅[10] - 2024年核心团队分拆成立上海半图科技专注二次元3D虚拟角色开发[12] - 创始人蔡浩宇在硅谷创立Anuttacon公司,团队集结微软、Meta、小鹏汽车等技术专家[13] 产品矩阵拓展 - 推出AI原生游戏《Whispers from the Star》,设定为天体物理学家星际求生RPG体验[14][16] - 2024-2025年间密集成立5家科技公司,涉及注册资本从100万至1.5亿不等[15] - 通过AI角色互动设计展现与马斯克Ani产品的差异化定位,前者侧重叙事后者侧重情绪输出[26] 行业趋势判断 - 公司认为AIGC将重塑游戏开发生态,仅0.0001%顶尖团队和99%业余爱好者能持续存活[18] - 实际产品验证阶段通过让Grok Ani试玩《Whispers》实现AI对话AI的营销事件[21] - 数字伴侣领域呈现故事驱动型(RPG)与用户驱动型(情绪价值)两条技术路线分化[26]
ChatGPT智能体正式发布,多个创业赛道昨夜无眠
量子位· 2025-07-18 08:30
ChatGPT Agent核心功能 - 整合"思考"和"执行"能力,实现深度研究与操作执行的统一[2][8] - 可接管用户电脑操作,接近操作系统级别的控制[3] - 工作场景支持会议安排、PPT生成、报销提交等高管助理级功能[4] - 生活场景覆盖旅游规划、活动安排等CEO秘书级服务[4] 技术实现与性能 - 采用专用模型实现SOTA,网页浏览和现实任务执行能力显著提升[5][30] - 动态学习机制优化速度、准确性和效率,配备可视化/文本浏览器及API访问路径[27][28] - 在DSBench测试中超越人类水平,SpreadsheetBench得分比GPT-4o提升超一倍[33][34][38] - "人类最后考试"得分41.6分,远超早期模型不足10分的表现[31] 商业化部署 - Pro版支持无限次任务,其他付费版每月50次任务,企业/教育版7月开放[22][23][24] - 通过积分制扩展使用量,免费用户暂未开放[23][25] 行业影响与竞争格局 - 将创业赛道功能整合为大厂标准化产品,冲击Agent领域创业者[5][7] - 落后于Anthropic等竞品的"Computer Use"功能,但在通用Agent领域加速追赶[48] - 手机厂商华为/小米等已试水Agent应用,如自动订咖啡、接听电话等[49] 长期趋势展望 - 可能重塑互联网形态,从PC时代"网站"、移动时代"APP"转向AI时代"Agent"[52] - 企业级应用如AI客服已快速渗透,垂直领域AI编程/绘图同步推进[46][47] - 预示由AI驱动的操作系统级产品形态正在形成[50][51]
o1核心贡献者离职后首发声:AI是史上最强杠杆,超越人力、资本和代码
量子位· 2025-07-17 17:03
核心观点 - 人工智能正在成为有史以来最强大的杠杆机制,将彻底改变个人到人类文明层面的价值创造方式 [1][4][10] - AI作为第四种杠杆形式,结合了人力、资本和代码杠杆的优势,并能产生复合效应 [10][23][24] - AI智能体代表无需许可的复合杠杆,正在改变组织形式和财富分配方式 [23][25][27] - 科学进步是人类最可持续的增长引擎,AI是突破当前科学复杂性瓶颈的关键工具 [28][29] AI作为新型杠杆 - 杠杆定义:输入微小变化带来输出巨大变化的机制 [12] - 人力杠杆:通过组织管理大量人力实现指数级产出,但需要许可和协调成本 [11] - 资本杠杆:用少量自有资金控制大规模资产放大回报,20世纪主要财富创造方式 [15] - 代码杠杆:零边际成本复制特性使服务用户数量无上限,信息时代核心杠杆 [17][18][20] - 杠杆优势随竞争减弱,需持续寻找新机制 [21][22] AI智能体的变革性 - 结合人力杠杆的工作能力与代码杠杆的无许可复制特性 [24] - 10-20人初创公司通过AI智能体可创造数亿美元收入,突破传统人力协作瓶颈 [25] - 改变生产关系:价值创造转向AI设计训练,而非人力组织管理 [27] - 协调成本几乎不随智能体数量增加,实现产出指数增长 [26][27] 科学进步的引擎 - 人类文明的核心任务是科学进步与知识发现 [28] - 现代科学复杂性远超个体智力,AI可连接分散的专家知识 [29] - AI作为工具外壳包裹并连接各领域专业知识尖峰 [29] - 突破科学革命以来的增长瓶颈,创造曲棍球棒式价值曲线 [28][29] 认知偏差警示 - 人类天生低估以年为单位的缓慢变化,可能严重低估AI变革幅度 [7] - AI发展以几十年为框架,是史上最快技术但仍需长期视角 [8] - 需重新评估AI杠杆带来的变化规模,避免认知局限导致的判断失误 [30]
Transformer危!谷歌MoR架构发布:内存减半推理速度还翻倍
量子位· 2025-07-17 17:03
谷歌MoR架构创新 - 推出全新底层架构Mixture-of-Recursions(MoR),首次在单一框架中实现统一参数共享与自适应计算资源分配,推理速度提高2倍且KV内存减半[1][3][7][9] - 采用递归Transformer结构,通过递归块复用共享参数池,相比标准Transformer减少独特参数数量[10][13] - 包含三种参数共享策略:Cycle循环复用层、Sequence连续复用同一层,提升分布式训练效率并消除计算"气泡"[11][12][13] 动态路由与KV缓存机制 - 动态路由机制通过轻量级路由器为每个token分配不同递归深度,集中计算资源处理复杂token,分为Expert-choice路由和Token-choice路由[15][17] - KV缓存策略包含Recursion-wise缓存(仅缓存活跃token的KV对)和Recursive KV共享(复用首次递归的KV对),降低内存和IO需求[15][18] - 路由机制突破固定思考深度限制,Expert-choice路由性能优于Token-choice路由[17][22] 性能表现与效率提升 - 在16.5e18 FLOPs训练预算下,MoR参数减少50%,验证损失更低且少样本准确率达43.1%(vanilla模型42.3%)[19][20] - 训练20B token时减少25% FLOPs,训练时间缩短19%,峰值内存减少25%[21] - 360M规模MoR在推理吞吐量评估中优于vanilla模型,递归深度增加使KV缓存占用减少[25][26] 架构演进与行业影响 - 谷歌持续通过架构创新重构计算范式,如MoE(混合专家模型)系列从2017年LSTM层应用到2023年Gemini 1.5 Pro分层架构[27][28][30] - MoE突破全连接模型缺陷,成为超大规模模型优先选择,TokenFormer等可扩展架构为千亿级模型迭代提供可能[31] - 行业将MoR视为潜在Transformer替代方案,其统一参数共享与自适应计算的特点可能重塑AI底层架构[4][32]
人类击败OpenAI守住编程冠军!10小时激战两次反超,AI最后关头功亏一篑
量子位· 2025-07-17 15:04
赛事结果 - 人类选手Psyho在AtCoder世界巡回总决赛中击败OpenAI模型获得冠军,OpenAI屈居第二 [1][3] - 最终得分:Psyho 45,245,838,577分 vs OpenAI 42,879,901,354分,分差2.37亿分 [7] - 比赛过程激烈,人类在最后1小时20分钟完成逆转 [3][28] 赛事背景 - AtCoder是全球性编程竞赛平台,提供5000道历年真题供挑战 [8] - 比赛分为算法类(传统编程题)和启发式(2024年新增,比拼最优解)两类 [10][12][13] - 本次OpenAI参与的是启发式竞赛,与12名人类选手同场竞技 [10] 比赛过程 - OpenAI前期表现优异,前6小时提交全部正确,首次提交即获31万分 [17][18] - 后半程出现多次"执行超时"失误导致零分 [19][20] - 人类冠军Psyho表现稳定,首次提交即获612万分 [22][23] - OpenAI提交次数远超人类选手(人类选手提交记录通常一页可显示完) [29][30] 选手背景 - 冠军Psyho曾任职OpenAI,参与过训练AI战胜人类冠军的项目 [34][38][39] - 该选手现为游戏设计师兼职业竞技程序员 [35] - 本次比赛由OpenAI赞助,冠军奖金50万日元(约2.4万人民币) [43][45] 行业影响 - 此次赛事引发关于人机竞赛未来走向的讨论 [32] - 比赛结果展示了当前AI在复杂编程竞赛中的局限性 [26][28] - 赛事过程全程直播,引发广泛关注 [16][46]