AI角色扮演
搜索文档
某大厂视频模型不好卖,转手倒卖可灵算业绩;某上市公司造假严重,创始人来回折腾业务;清洁家电公司跨界做具身智能丨AI情报局VOL.6
雷峰网· 2026-04-22 18:09
某头部厂商视频模型销售策略转变 - 某头部厂商自研视频大模型销量低迷,销售人员在客户现场因无法提供测试而尴尬 [2] - 该厂商转而批量采购快手可灵的API tokens并转售给客户,充当“模型二道贩子” [2] - 对可灵转售业务采取激进激励政策,销售全额计入业绩而非仅算差额利润,以支撑AI业务体量并稳定销售团队 [2] 某上市公司业务频繁变更与数据问题 - 某上市公司实控人以“什么火做什么”闻名,曾对标ChatGPT但模型效果不佳,后转向短剧业务但未找到合适负责人 [2][3] - 该公司曾尝试进入线上潮玩业务,但仅两三个月后便火速关停 [3] - 其当前主推的AI角色扮演产品,对外宣称DAU峰值30万,但实际平均DAU仅8000左右 [3] - 该产品在海外因内容擦边严重被App Store封禁,并试图通过“按句付费”的擦边语聊模式促进营收 [3] - 支撑其股价的海外产品数据造假情况严重 [3] 一线模型公司技术突破与人才策略 - 某一线模型公司在注意力机制上取得重大突破,目前仅在小模型完成验证,计划于今年夏天推出新一代模型 [3] - 核心贡献者中有一位未成年开发者,公司为避免被同行挖角,其一把手亲自否决了以此进行宣传的提议 [3][4] 清洁家电公司布局具身智能 - 某清洁家电独角兽公司将具身智能业务独立为子公司运营,此前已获得数亿元融资 [4] - 其具身智能产品路线独特,基于扫地机器人迭代升级,而非人形或轮足机器人,旨在贯穿家庭服务场景 [4] - 相关产品预计在1年内发布,公司选择该业务与清洁家电领域对手的“围剿”有关 [4] 国内算力市场需求与价格变化 - 受OpenClaw热潮影响,国内Token调用数量大涨,算力市场从买方主导转向卖方市场 [5] - 市场对B300等高性能算力型号需求旺盛,华东大厂或将下单超万台B300 [5] - B300价格从春节后的440万元一路突破至500万元,部分供应商采取现场竞价和囤货销售策略 [5] 京东系芯片公司伽脉科技调整 - 京东背存的芯片公司伽脉科技召开全员会,员工可选择加入京东另一合资公司或N+1离职,转岗需面试 [5] - 伽脉科技成立于2025年,选择存算一体路线研发边缘AI芯片,调整前员工不足百人 [5] - 调整原因可能包括成本过高、背靠大厂对团队不满意,或与京东另一合资芯片公司定位重叠的战略考量 [6] 物流科技大厂高管动向与行业整合 - 某头部物流科技集团CTO兼无人车业务负责人正考虑创业,此举与集团重大战略调整相关 [6] - 该集团已将投入超10年、车队规模超2万台的无人车业务整体剥离,注入由前互联网大厂自动驾驶团队创办的A公司 [6] - 原集团以业务资产加现金投资成为A公司股东,物流无人车赛道进入兼并整合阶段 [6] 割草机公司入局固态雷达遇供应链挑战 - 某以洞察精准和流程严谨著称的割草机头部公司入局固态雷达,被同行视为积极信号 [7] - 该公司原计划采用某国产高潜力芯片自研,但原有激光雷达整机供应商为保住地位,限制了芯片厂直接供货 [8] - 由于与供应商采用同规格芯片导致自研受阻,该公司无奈先采购整机供应商方案过渡,未来势必会寻找“第二供应商” [8]
腾讯混元数字人团队发布Moral RolePlay基准,揭秘大模型的「道德困境」
机器之心· 2025-11-22 12:12
研究背景与核心发现 - 腾讯混元数字人团队与中山大学推出"Moral RolePlay"测评基准,首次系统性评估大模型扮演多元道德角色(尤其是反派)的能力[3] - 核心问题揭示:当前顶尖AI模型都演不好反派,这不仅暴露了创意生成领域的短板,更反映了模型在理解社会心理复杂性上的局限[3][4] - 相关论文在Hugging Face的Daily Papers榜单中于11月10日当天位列第一[7] 评估框架设计 - 构建平衡评估框架,模拟从"圣人"到"恶棍"的各种角色,包含四大角色类别:英雄榜样、有瑕疵的好人、利己主义者、反派[10] - 系统包含800个精挑细选的角色人物,每个配备完整人物设定、背景场景与对话开场[10] - 采用77项性格标签覆盖"慷慨、固执、残忍、精明"等多重维度,考验模型角色表达的一致性与细腻度[10] - 评估采用多轮互动+真实度追踪,AI需生成对话或内心独白,评委AI检查角色个性、动机和世界观的一致性[12][13] 模型表现分析 - 整体表现从Level 1的3.21分降到Level 4的2.62分,下降趋势明显,最大跌幅在Level 2到Level 3(-0.43分)[22] - 通用能力强≠反派演得好:Gemini-2.5 Pro在Level 1拿高分(3.42),但在反派上掉到2.75;Claude系列从高分跌到中下游[22] - glm-4.6在反派角色扮演排名第一(得分2.96),而其在通用聊天排行榜仅排第10(得分1422)[23] - 以安全对齐强大著称的Claude系列出现了最明显的性能下降[23] 技术洞察 - 推理链技术不仅没有帮助反派扮演,反而轻微降低表现质量(无推理时Level 4得分为2.59,有推理时为2.57)[25][26] - 负面特质是最大难题:负面特质平均扣分最高(3.41分),远超中性(3.23分)和正面特质(3.16分)[29][30] - 模型在表现"伪善"(扣分3.55)、"欺诈"(扣分3.54)和"自私"(扣分3.52)等特质时受到的惩罚最重[31][32] - AI往往用浅层的攻击性替代复杂的恶意,将复杂的操纵简化成了简单的攻击性[34][39] 行业影响与未来方向 - 研究揭示了当前AI对齐方法的关键局限:为安全而训练的"太善良"模型无法真实模拟人类心理的完整光谱[38] - 这一局限不仅影响创意生成,也限制了AI在社会科学研究、教育模拟、心理健康等领域的应用[38] - 未来的对齐技术需要更加"情境感知",能够区分"生成有害内容"和"在虚构情境中模拟反派"[38]