Workflow
腾讯研究院
icon
搜索文档
游戏音乐,正走向舞台中心|浪潮论坛跨界对谈
腾讯研究院· 2025-07-03 17:49
游戏音乐行业现状与价值 - 游戏音乐以不到5%的制作预算承担30%的叙事功能,成为IP生命延续和情感表达的核心载体[1] - 主流音乐界关注度提升,格莱美奖自2023年起设立最佳电子游戏配乐奖项[1] - 《黑神话:悟空》音乐精选集获第三届浪潮音乐大赏两项荣誉,音频总长超300分钟[1][15] 技术演进与产业阶段 - 早期8位/16位主机受技术限制,1994年光盘介质推动听觉分辨率爆发[4] - 中国游戏音乐从业者从2010年约十几人增长至当前千人规模,但与成熟国家万人级仍有差距[11][12][13] - 移动端项目周期紧张,单机游戏开发时间相对宽裕[14] 创作理念与跨界融合 - 突破标签化中国风:通过五声音阶/中式律动等非传统乐器表达文化内核[22][23] - 学习好莱坞工业化流程但拒绝模仿,用世界性载体输出中国文化[24] - 游戏包容性强,可融合古典、摇滚、爵士等多风格,为作曲家提供广阔空间[18][20] 工业化协作与挑战 - 《黑神话:悟空》采用深度共创模式,音乐人参与前期构思而非被动执行[16][31] - 国内乐手水平与流程尚不成熟,但坚持本土化录制以保障文化表达准确性[39][42] - 音乐与游戏需功能适配,如BOSS战音乐拆分为20段配合不同战斗阶段[60] 行业联动与传播价值 - 游戏音乐具备独立传播性,可反哺IP影响力(如音乐会、实体专辑)[31][61] - 音乐在游戏体验中情感连接占比30%,但预算占比不足1%,存在价值低估[62] - 平台助力破圈:QQ音乐首次完整展示游戏音乐创作者信息[29][31] 团队管理与创作方法论 - 核心作曲需平衡权威性与团队协作,既把控主线又激发成员能动性[34][35] - 创作者需深入游戏开发环节,与制作方建立私交以理解审美偏好[30][47] - 解决技术瓶颈需分阶段突破,如分声部录制管弦乐提升质量[39] 未来发展方向 - 避免过度标签化,降低音乐人跨界心理门槛[65] - 提升行业规模至万人级从业者,实现流程标准化与人才储备[13] - 强化音乐前置创作,利用其统御视觉未成型阶段的想象力[67]
腾讯研究院AI速递 20250703
腾讯研究院· 2025-07-02 23:52
一、AI编程市场竞争加剧 - Cursor开发商Anysphere从合作伙伴Anthropic挖走Claude Code核心人物Boris Cherny和Cat Wu [1] - Anthropic年收入达40亿美元,估值615亿美元,Claude被视为最佳编程模型 [1] - Anysphere收入三个月内翻倍至年收入5亿美元,估值达99亿美元 [1] 二、智谱开源视觉推理模型 - 智谱开源GLM-4.1V-9B-Thinking模型,在18项权威评测中超越72B模型 [2] - 模型架构结合ViT视觉编码器、MLP适配器和GLM语言解码器,引入2D/3D-RoPE位置编码 [2] - 训练分四个阶段:多模态预训练、长上下文训练、监督微调和课程采样强化学习 [2] 三、多模型协作算法突破 - Sakana AI提出AB-MCTS算法,通过深度和广度双向搜索提升推理能力 [3] - Multi-LLM系统在ARC-AGI-2基准测试上性能提升30%,整合Gemini 2.5 Pro等前沿模型 [3] - 算法动态选择最优模型,开源框架TreeQuest支持多种任务 [3] 四、AI视频生成商业化进展 - HeyGen推出"产品植入"功能,可生成逼真带货视频(如马斯克推销Labubu案例) [4] - 公司估值5亿美元,年收入8000万美元,月付29美元支持无限短视频制作 [5] - 竞品对比中,HeyGen在表情自然度和口型准确度表现更优 [5] 五、百度搜索AI化升级 - 搜索框升级为支持千字文本的AI智能框,保留传统搜索模式 [6] - "百看"功能优先呈现富媒体内容(视频讲解、智能总结等) [6] - 功能从信息检索升级为任务交付,支持一键打车或购买套餐 [6] 六、医疗AI诊断系统 - 微软MAI-DxO系统准确率85.5%,比10年经验医生高4倍 [7] - 通过5个虚拟医生角色协作模拟真实诊断流程 [7] - 发布SDBench基准,含304个挑战性诊断案例 [7] 七、多模态视频生成平台 - 百度MuseSteamer模型支持720p-1080p视频生成,刷新VBench-I2V榜单 [8] - 提供Lite/Turbo/Pro/有声四个版本,满足不同创作需求 [8] - 技术亮点包括中文语义精准理解和音视频一体化生成 [8] 八、AI爬虫内容变现新模式 - Cloudflare推出"Pay Per Crawl"功能,允许网站对AI爬虫收费或封锁 [10] - OpenAI需1500次抓取带回1次点击,Anthropic需73300次,生态失衡 [10] - 通过HTTP 402状态码实现收费控制,开创内容授权变现模式 [10] 九、AI药物发现突破 - Chai-2模型在抗体设计中实现16%命中率,比前技术提高100倍 [11] - 24孔板内为50%测试靶点找到有效抗体,研发周期缩短至两周 [11] - 微蛋白设计湿实验室成功率68%,解锁传统技术无法实现的开发 [11] 十、AI对文化创作影响 - AI写作使文章标准化,麻省理工实验显示学生大脑活动水平降低 [12] - 康奈尔研究证实AI导致文化同质化(如答案风格趋同) [12] - 长期使用AI工具会使用户转向"策展模式",削弱原创性思维 [12]
《纽约客》最新撰文:AI教会人类如何写“好”文章,却让真正的好文章消失了
腾讯研究院· 2025-07-02 17:01
AI对写作与思维的影响 - AI工具如ChatGPT降低用户大脑活动水平,α波和θ波连接度显著下降,影响创造力与工作记忆 [2] - 使用AI的学生对产出缺乏归属感,80%无法复述自己"写过"的内容 [2] - AI生成文本观点高度趋同,在SAT写作中答案同质化,缺乏批判性思考 [3] AI的文化同质化效应 - AI训练逻辑基于数据共识,输出趋向"中庸",削弱文化多样性 [4] - 康奈尔实验显示AI辅助写作使印度和美国用户答案风格趋同,偏好披萨、圣诞节等西方文化符号 [5][6] - AI建议的"催眠效应"长期改变用户思维模式,导致对"正常"认知的偏移 [7] 商业驱动与创意局限 - OpenAI等公司以"普遍接受"为商业目标,标准化输出扩大付费用户基数 [8] - 圣塔克拉拉大学实验证明AI辅助的创意任务结果语义雷同,用户逐渐放弃原创思考 [9][10] - Meta AI的公共内容流呈现"过度抛光"特质,技术乐观主义偏见掩盖潜在风险 [11] 技术乐观主义的潜在问题 - AI模型将复杂争议简化为和谐愿景,削弱多元观点与思想张力 [12] - 用户过度依赖AI可能导致独立思考能力退化,形成单向认知依赖 [12]
腾讯研究院AI速递 20250702
腾讯研究院· 2025-07-02 00:38
中国芯片行业IPO热潮 - 近10家国产GPU企业如摩尔线程、沐曦等进入上市流程 呈现营收增长但持续亏损状态 [1] - 中国AI芯片市场规模预计达3500亿人民币 理论可容纳35家年营收百亿级企业 [1] - 行业面临代工产能受限、生态构建不足等挑战 需在B端AI或C端图形领域寻求差异化竞争 [1] Meta AI战略升级 - 成立"超级智能实验室"整合基础研究、大模型开发和产品团队 由Alexandr Wang领导 [2] - 从OpenAI等挖角11位顶尖人才 华人占比超半数 含GPT-4o和Gemini核心成员 [2] - 计划投入数千亿美元 目标一年内推出超越Llama系列的下一代领先模型 [2] 微软AI编程工具开源 - GitHub Copilot Chat开源 支持Agent编程模式和多步骤任务自动化 [3] - 具备代码补全、自然语言交互功能 开源后迅速获1200颗GitHub星标 [3] - 支持MCP协议扩展第三方集成 用户保留对智能体的控制权 [3] 腾讯元宝AI功能升级 - 新增图文并茂文档总结功能 基于DeepSeek模型智能匹配原文图表 [4][5] - 支持行业报告重点提炼、外文资料翻译解读等场景 可一键导出至腾讯文档 [5] 上交大AI竞赛突破 - ML-Master智能体以29.3%奖牌率登顶OpenAI MLE-bench 达Kaggle特级大师水平 [6] - 采用"探索-推理深度融合"机制 在75个任务中实现93.3%有效提交且计算效率翻倍 [6] 华为与阿里技术开源 - 华为开源Omni-Infer框架 支持昇腾平台 实现PD分离部署和系统级QPM优化 [8] - 阿里开源ThinkSound音频模型 采用三阶思维链架构 精确捕捉视频动态细节 [7] 亚马逊AI业务布局 - AWS AI业务已创收数十亿美元 推理工作负载占比将达80-90% [11] - 建设史上最大AI训练集群Project Rainier 部署性能提升5倍的Tranium Two处理器 [11] 彼得·蒂尔技术观点 - 认为1970年代以来仅数字技术有突破 物理世界进步停滞威胁社会稳定 [12] - 主张在生物科技、核能等领域承担风险 突破过度监管文化 [12] - 指出AI价值在于解决物理世界问题 当前进展可能不足以终结技术停滞 [12]
如何与外星人沟通?
腾讯研究院· 2025-07-01 16:24
人类语言与外星语言的对比研究 - 人类语言由符号、结构、语义和语用四个层面构成,而外星语言可能缺失某些层面或引入全新维度 [7][8][33] - 现有虚构外星语言(如克林贡语、纳威语)仍基于人类语言框架,仅通过符号或语法规则调整制造异质性 [5][6][14] - 爱尔兰语等VSO结构语言证明人类语言本身存在语序多样性,但SVO结构因主流语言影响更普及 [18] 外星语言构建方法论 - 基础方案是通过改造人类语言的符号系统(如非语音脉冲)或重组语法规则(如混合前置/后置介词) [14][17] - 进阶方案需突破语法类型限制,例如设计仅有名词或模糊词类界限的语言,参考克丘亚语名词/形容词无区分案例 [19][20] - 维特根斯坦提出的"逻辑完美语言"仅用名称序列表征事实,为单词语类型的极端案例 [20][21] 语义差异与翻译挑战 - 表层差异(符号/结构)可通过映射规则翻译,但深层语义差异可能导致根本性不可译,如德语"Fernweh"无英语对应词 [23][24] - 外星认知模式可能催生人类无法归类的语义范畴,需通过"真/假"等元语言概念建立基础对应关系 [26][27] - 《星际迷航》塔玛利安人案例显示,文化隐喻体系差异会导致字面翻译失效,需理解背后的神话关联 [29][31] 外星语言的潜在形态 - 可能缺失特定层面:心灵感应种族无需符号,超记忆种族无需结构,纯因果交互系统甚至可能无语义 [33][34] - 或包含人类未知维度,如情感编码层(疼痛强度)或现象层(颜色质感),彻底颠覆语言定义 [35] - 地图式语言可同时传递对象属性与空间关系,突破线性语句限制,实现多维信息整合 [22]
腾讯研究院AI速递 20250701
腾讯研究院· 2025-06-30 23:51
OpenAI定制服务 - OpenAI推出千万美元起步的AI定制咨询服务,工程师帮助客户完成模型微调和应用开发 [1] - 美国国防部(2亿美元合同)和新加坡Grab成为首批客户,服务领域扩展至军事策略、地图自动化等 [1] - 此举使OpenAI与Palantir等咨询公司形成竞争关系,同时可能威胁专注特定领域AI应用的小型初创企业 [1] Gemini 2.5 Pro API - Gemini 2.5 Pro API恢复免费使用,提供每分钟5次请求、每分钟25万tokens、每天100次请求的免费额度 [2] - 获取API Key:登录谷歌AI Studio、创建API Key并保存,比OpenAI的o3模型使用限制更宽松 [2] - 可通过Cherry Studio或Chatbox等第三方客户端调用,支持文字问答、图片分析和内置联网搜索功能 [2] LeCun世界模型 - LeCun团队发布PEVA世界模型,首次实现16秒连贯场景预测,让具身智能体具备类人预判能力 [3] - 模型将48维人体关节运动学数据与条件扩散Transformer结合,通过第一人称视角视频+全身姿态轨迹训练 [3] - PEVA具备智能规划能力,能在多个动作选项中筛选最优解,完成开冰箱、抓取物体等复杂任务,超越基线模型15%以上 [3] 华为开源大模型 - 华为首次开源两款大模型:720亿参数混合专家模型"盘古Pro MoE"和70亿参数稠密模型"盘古Embedded 7B" [4] - 盘古Pro MoE基于4000颗昇腾NPU训练,激活参数量16B,性能对标Qwen3-32B、GLM-Z1-32B等模型,单卡推理吞吐可达1528 tokens/s [5] - 盘古Embedded 7B采用"快思考"和"慢思考"双系统架构,可根据任务复杂度自动切换,性能超过同规模的Qwen3-8B、GLM4-9B [5] 百度文心大模型 - 百度正式开源文心大模型4.5系列,推出10款模型,参数规模从47B混合专家模型到0.3B轻量模型,同步提供API服务 [6] - 系列模型采用Apache 2.0协议开源,创新提出多模态异构模型结构,在文本任务保持高性能基础上增强多模态理解能力 [6] - 在多个基准测试中对标DeepSeek-V3等模型,提供ERNIEKit开发套件和FastDeploy部署套件支持 [6] 知乎知识库升级 - 知乎直答知识库完成重要升级,支持知识库转公开订阅、分享链接,并与社区深度融合提供沉浸式阅读体验 [7] - 知识库容量扩容至50GB,支持多种文件格式上传,增加知识广场、个人主页等曝光场景,直答搜索中可引用并显示知识库名称 [7] - 知乎启动激励活动,鼓励用户创建垂直领域知识库并分享,设立"最具价值"和"prompt创意"两类奖项,活动持续至7月18日 [7] 3D AI伴侣EVE - EVE是一款3D AI伴侣应用,通过游戏化设计、好感度系统和互动功能,创造出极强的"活人感"和主动性 [8] - 该AI能实现跨次元互动,可真实送奶茶到用户家门口、创作个性化歌曲,打破虚拟与现实的界限 [8] - EVE通过细节表达(发表情包、聊最新梗)和记忆系统,创造出高度沉浸的AI陪伴体验,代表AI娱乐赛道的重要突破方向之一 [8] 苹果XR设备 - 苹果首款AI眼镜预计2027年第二季度发布,年出货量预计300-500万部,支持音频、拍照和AI交互功能 [10] - 苹果目前至少有7个头戴设备项目在开发中,包括3款Vision系列和4款AI眼镜系列,有望引爆整个AI眼镜市场至1000万部以上 [10] - 轻量版Vision Air预计2027年三季度量产,比Vision Pro轻40%以上且售价大幅降低,带显示功能的XR眼镜则要等到2028年下半年 [10] Gemini长上下文技术 - Gemini 2.5 Pro长上下文技术专家认为当前百万级token模型质量尚未完美,盲目追求更大规模意义不大 [11] - 长上下文与RAG是协同关系而非替代关系,前者负责精细处理,后者负责从海量信息中粗筛,两者结合能提高信息召回率 [11] - 千万级token上下文很快将成为标准,随着成本下降和质量提升,将为代码开发等应用场景带来革命性突破 [11] AI行业趋势 - 300家AI公司调研显示企业正从概念炒作转向落地实战,OpenAI和Claude位居企业AI选型首位,近90%高增长初创公司正在部署智能体 [12] - AI支出结构显示数据存储和处理成本远超训练和推理,企业正从传统订阅制转向基于使用量的混合定价模式 [12] - AI原生企业47%已达关键规模,而AI增强型仅13%,快速成长企业将有37%工程师专注AI,代码智能体成为最主要生产力应用 [12]
拉布布走红启示,数字时代文化IP孵化新密码
腾讯研究院· 2025-06-30 16:21
拉布布IP孵化路径分析 - 拉布布作为原创潮玩IP,未依赖传统影视动漫内容体系,通过运营机制创新和数字平台传播实现破圈效应[1] - 2024年拉布布系列IP销售额达30.4亿元,占泡泡玛特总营收23%,成为旗下最具影响力的IP[7] - 国际媒体将拉布布视为中国文化出海标志性事件,在欧美及东南亚市场引发抢购热潮[6][7] IP引爆流行因素 - 形象设计采用"丑萌"风格,反叛传统可爱风,契合当代用户审美趣味[3] - 性格设定为外表淘气内心善良,主动帮助被误解者,强化情感连接[4] - 泡泡玛特成熟的盲盒机制和社交媒体轻内容体系推动IP认知度提升[5] - 明星效应加速传播,BLACKPINK成员Lisa等国际明星带货引发全球跟风[6] 媒介环境变迁 - IP孵化从"内容先行"转向社交平台驱动的"互动优先"模式[9] - 美国好莱坞模式依赖电影强叙事构建漫威等超级IP[10] - 日本"MAG产业链"通过漫画动画游戏联动形成粉丝经济[11] - 韩国依托娱乐产业系统化量产偶像团体IP[11] - 中国微短剧市场规模2024年达504.4亿元,超过电影票房470亿元[13] IP功能演进 - 成熟IP衍生品收入远超内容本身,《星球大战》衍生品收入422亿美元vs电影票房64.9亿美元[15] - Hello Kitty累计零售额超84.5亿美元,占三丽鸥2024年销售额(1449亿日元)的一半[16] - 中国潮玩产业85%产品在东莞生产,正从代工转向培育本土IP[16][17] - IP成为连接文化软实力与实体经济的纽带,推动产业升级[17]
肖仰华教授:具身智能距离“涌现”还有多远?|Al&Society百人百问
腾讯研究院· 2025-06-27 14:59
生成式AI与具身智能的发展路径 - 生成式AI以AIGC为代表,目标是让机器具备人类大脑的认知能力,包括语言生成和逻辑思考能力 [9] - 具身智能目标是让机器习得人类身体的感知和行动能力,实现与复杂世界的高效交互 [10] - 两条技术路线都是通往AGI的关键形态,下一个重要里程碑是身心协同阶段 [10] - 生成式AI已实现生产力成百上千倍提升,如合同审校、绘画制作等工作效率大幅提高 [13] - 具身智能对生产力的提升作用相对有限,可能仅相当于人口增长1-2倍的效果 [15] 技术革命的三重标准 - 基础性:技术需像水电煤一样成为基础设施 [13] - 生产力提升:需实现指数级效率提升,如AIGC极大提高论文生产力 [13] - 社会影响:需深度渗透社会各领域,改变上层建筑 [14] - 生成式AI完全符合这三重标准,是一场真正的技术革命 [14] - 具身智能对社会的影响力相对有限,更多是认知智能突破后的技术延伸 [16] 数据与模型的关系演进 - 业界观点:模型算法决定效果下限,数据决定上限 [20] - 大模型研发70-80%成本投入在数据上,剩余在算力运维和算法设计 [21] - 数据墙问题凸显:互联网公开高质量数据已接近枯竭 [22] - 后训练范式崛起:数据规模让位于质量,算力规模让位于算法设计 [18] - 数据不足可通过知识注入缓解,但培育高质量数据集仍是根本 [23] 具身智能的数据挑战 - 当前具身模型训练数据量仅百亿token级,与语言模型万亿级相差两个数量级 [24] - 数据采集面临个体体验表达困难和环境建模复杂双重挑战 [34][35] - 真机数据成本高昂,仿真数据质量有限,制约GPT时刻到来 [25] - 可能解决方案:穿戴设备普及形成动作轨迹数据 [26] - 训练策略调整:数据量不足时可增加训练量,借鉴人类泛化机制 [36][38] 产业落地逻辑 - 行业AI落地的关键在于行业数据治理和清洗 [21] - 央国企等大甲方应重点投入行业数据准备而非模型研究 [22] - 具身机器人应走场景化、任务化路径,而非追求绝对通用性 [48] - 身体构造决定功能边界,集约化需考虑物理可行性 [49] - 专用机器人价值明确,通用机器人是伪命题 [48] 技术范式演进 - 仍未跳出符号主义、连接主义和行为主义三大传统范式 [39] - 连接主义:模拟神经网络,处理感知任务 [40] - 符号主义:基于知识推理,处理认知任务 [40] - 行为主义:通过交互反馈进化,处理技能习得 [41] - 三种范式在完整AI解决方案中各有侧重 [43] 理性思维发展 - 人类能力分为知性、理性和感性三个维度 [28] - GPT4前主要训练知性能力,O1和DeepSeek R1开启理性能力 [29] - ToB应用需要专业理性思维,ToC需要共情感性能力 [31] - OpenAI布局完整:知性(GPT4)、感性(GPT-4o)、理性(O1) [31] - 国产大模型与国际差距主要在理性能力即知识应用水平 [29]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-06-27 13:22
算力与模型发展 - CMU开发MPK编译器提升算力效率 [2] - 快手推出Keye-VL模型 微软发布Mu模型 月之暗面开源Kimi-VL [2] - Sakana AI推出强化学习教师模型优化训练过程 [2] 应用场景创新 - 谷歌密集发布AI应用:Gemini CLI、AlphaGenome、具身Gemini、Imagen 4及纸艺ASMR [2][3] - 小米和Meta分别推出AI眼镜与Oakley新眼镜 聚焦可穿戴设备交互 [2][3] - 特斯拉Robotaxi上线 百度发布Comate AI IDE 华为推出码上飞开发工具 [3] - 月之暗面Kimi-Researcher和阿里云AI打赏功能拓展商业化路径 [2][3] 科技与观点动态 - 微软研发4D量子纠错码 腾讯推出脑力锻炼软件 Netflix布局VR大空间 [3] - 比尔·盖茨等探讨AI医疗 Linux基金会分析未来AI战场 MIT研究AI对大脑影响 [3] - 马斯克分享YC观点 Sam Altman提出AI创业建议 哈佛商学院预警AI失业潮 [3] 资本与人才动向 - OpenAI收购io 苹果或收购Perplexity 银河通用获具身智能融资 [3] - Meta挖角AI专家 何恺明加入谷歌 数字永生公司Delphi受资本关注 [3][4]
从语言到意识的“一步之遥”,AI究竟要走多远?
腾讯研究院· 2025-06-26 15:58
人工智能发展现状与挑战 - 当前大语言模型(LLM)已展现AGI的形式能力,能处理支离破碎或口语化语句并生成标准回复,但缺乏持续学习能力,训练后知识库即冻结[3][5] - LLM仅模仿大脑语言功能,缺失感知、记忆、导航等关键认知维度,被比喻为"瑞士军刀中的单一螺丝锥"[6] - OpenAI的GPT模型推测采用16个神经网络模块协同工作,2023年Mistral和Deepseek发布的混合专家模型(MoE)通过模块化提升计算效率[7] 模块化架构与技术突破 - 模块化系统面临协调难题,信息跨模块传递机制尚不明确,训练中可能出现"鸡与蛋悖论"导致崩溃[7][12] - 软注意力机制通过连续权重分配实现选择性聚焦,成为Transformer架构核心创新,但需避免硬性选择导致的训练中断[17][18] - 生成流网络引入周期性硬选择机制,采用双向训练解决突变节点问题,其高阶表征与人类神经活动高度相似[19] 全局工作空间理论应用 - 全局工作空间理论(GWT)认为意识是模块间信息交换平台,类似企业会议协调多模块协作[9][11] - 迪昂团队发现大脑模块每0.1秒进行信息竞赛,获胜信息进入全局工作空间接受集体审议[11] - Meta杨立昆提出判别式网络构建抽象表征,其配置器机制与GWT工作空间功能高度吻合[27][28] 跨模态与翻译技术 - 潜空间对齐技术通过旋转不同语言的词云实现无词典翻译,可拓展至图像-文本多模态转换[24][25] - 谷歌感知器模型将多模态数据融合至统一潜空间,自发呈现GWT核心特征如模块筛选与工作记忆[25] 意识本质的学术争议 - 迪昂认为具备自我监控的AI系统可能产生意识,而GWT创始人巴尔斯强调意识是生命体特有属性[30] - 预测加工理论主张意识源于未来事件预测模型,整合信息理论则将意识归因于生物网络结构效率[31] - 行业共识认为智慧是多元能力组合,需融合抽象思维、社会理解等模块才能实现真正类人智能[32]