腾讯研究院
搜索文档
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-07-04 16:20
芯片 - 美国商务部解禁EDA工具 [2] 模型 - xAI发布Grok 4模型 [2] - DeepSeek推出DeepSeek-R2模型 [2] - 智谱发布GLM-4.1V-Thinking模型 [2] - Sakana AI开发AB-MCTS算法 [2] - 华为推出Omni-Infer模型 [2] - LeCun团队发布PEVA世界模型 [2] - 华为开源盘古模型 [2] - 百度发布文心大模型4.5 [2] - 谷歌推出Gemma 3n模型 [2] - 腾讯发布Hunyuan-A13B模型 [2] - 阿里推出Qwen VLo模型 [2] 应用 - 谷歌和英伟达合作开发AI游戏引擎 [2] - 智源研究院推出OmniGen2 [2] - 谷歌发布Gemini for Education教育应用 [2] - 星流Agent推出国内版Lovart [2] - 腾讯元宝实现多模态回答功能 [2] - 谢赛宁团队开发Blender Fusion [2] - HeyGen实现产品植入功能 [2] - 百度推出MAI-DxO应用 [3] - 微软发布GitHub Copilot Chat [3] - 腾讯元宝升级文档总结功能 [3] - 上交大开发ML-Master [3] - 阿里推出ThinkSound应用 [3] - 腾讯Light创造营开发AI无障碍应用 [3] - OpenAI推出AI定制服务 [3] - 谷歌恢复免费API服务 [3] - 知乎升级直答功能 [3] - EVE推出3D AI伴侣 [3] - Black Forest发布FLUX.1-Kontext [3] - 特斯拉实现自驾交付 [3] - 可灵AI推出Kling-Foley [3] - 谷歌发布DopplAI [3] 科技 - Chai Discovery发现Chai-2抗体 [3] - 苹果规划Vision头显 [3] - Neuralink公布四年路线图 [3] 观点 - 世界经济论坛讨论AI对就业影响 [3] - 《纽约客》分析AI对写作影响 [3] - 亚马逊阐述AI战略路径 [3] - 彼得·蒂尔提出技术停滞论 [3] - 谷歌探讨长上下文价值 [3] - Iconiq Capital分析AI落地模式 [3] - Anthropic进行AI经济试验 [3] 资本 - 摩尔线程等公司筹备芯片IPO [3] 事件 - Anysphere挖角Claude团队 [4] - Cloudflare制定AI爬虫新规范 [4] - Meta成立超级智能实验室 [4] - Meta挖角OpenAI人才 [4]
腾讯研究院AI速递 20250704
腾讯研究院· 2025-07-03 23:31
一、AI游戏引擎Mirage - 谷歌、英伟达等八大机构联合发布全球首款AI原生UGC游戏引擎Mirage,支持通过自然语言指令实时生成游戏内容 [1] - Mirage突破传统游戏局限,支持16FPS流畅体验和5-10分钟连续游玩,画面质量直逼GTA和极限竞速 [1] - 核心技术基于Transformer和扩散模型打造的"世界模型",通过大量游戏数据训练实现动态交互与实时控制 [1] 二、OmniGen2图像生成模型 - 智源研究院发布OmniGen2统一图像生成模型,采用分离式架构与双编码器策略,支持文生图、图像编辑和主题驱动图像生成 [2] - 模型创新性引入图像生成反思机制,显著提升上下文理解能力、指令遵循能力和图像生成质量 [2] - OmniGen2已开放科研体验版,模型权重、训练代码及训练数据全面开源,GitHub星标一周内突破2000 [2] 三、Gemini for Education - 谷歌将Gemini为首的AI工具套件免费提供给全球教育工作者,深度集成到Google Classroom和ChromeOS中 [3] - Gemini in Classroom包含30多个AI工具,可自动生成教案、课堂活动和测验题,节省教师备课时间 [3] - 推出NotebookLM和Gems等教师主导的AI工具,以及全新数据分析功能,实现个性化学习体验和数据驱动教学 [3] 四、星流Agent创作平台 - 星流Agent是一个多功能AI创作平台,可通过自然语言指令一键完成批量表情包、品牌VI设计、视频生成、3D建模等多种创意任务 [4] - 核心功能包括批量高质量内容生成、Kontext智能图像编辑功能和全媒体工作流支持,实现"Vibe designing"设计新范式 [5] - 平台提供免费体验额度和积分,支持多样化创意输出,将设计师角色从"掌握技术"转向"理解需求与表达创意" [5] 五、腾讯元宝新功能 - 腾讯元宝新增一句话搜索功能,能智能匹配图片和视频号内容,支持全部模型使用 [6] - 回答结果可智能引用视频号相关教程,实现文字与视频配合讲解的形式,并支持一键跳转视频号观看 [6] - 用户可在获取初始回答后继续追问,此前5月份元宝已打通微信读书和起点读书,实现搜索直接跳转阅读功能 [6] 六、Blender Fusion框架 - 谢赛宁团队发布Blender Fusion框架,实现通过方向键或滑块精准控制画面中物体的移动、旋转和缩放,无需依赖文本提示词 [7] - 技术核心是三步流程:先用SAM模型分离物体和场景,再用Blender进行3D编辑,最后用扩散模型生成高质量合成图像 [7] - 系统采用双流扩散合成器接收原始场景和编辑后渲染图像,并通过源遮挡和模拟物体抖动等技巧提高泛化能力和真实感 [7] 七、Grok 4新模型 - xAI即将发布新模型Grok 4系列,包括旗舰版Grok 4和专用编程模型Grok 4 Code,预计于美国国庆日后推出 [8] - Grok 4特性包括13万tokens上下文窗口、支持函数调用、结构化输出和推理能力,但仅支持文本到文本模态 [8] - 马斯克表示希望用Grok 4重写人类知识库,补充缺失信息并删除错误,而Grok 4 Code将作为专业编程助手 [8] 八、DeepSeek-R2神秘模型 - 大模型竞技场秘密上线代号为"steve"的神秘模型,通过对话透露来自DeepSeek,引发网友猜测其为DeepSeek-R2或其他新版本 [10] - "steve"模型知识截止时间为2023年10月,通过部分智力测试,但表现不够惊艳 [10] - 此前The Information报道称DeepSeek-R2再度延期,原因是内部对模型表现不满意,同时可能受英伟达H20芯片缺乏影响 [10] 九、EDA行业动态 - 西门子、新思、楷登电子宣布收到美国商务部BIS通知,解除对中国大陆市场的临时禁令,恢复中国客户对其软件和技术的全面访问 [11] - 此前5月下旬BIS对EDA三巨头突然下发出口限制通知且未设缓冲期,导致三巨头股价暴跌,新思科技曾预测中国区收入将同比下降28% [11] - 国产EDA行业面临"成熟度与市占率"困境,中国已有三家EDA公司上市,但芯片设计公司为保证流片成功率仍倾向使用成熟度高的国外产品 [11] 十、AI就业影响 - 世界经济论坛《2025年全球未来就业报告》显示AI与机器学习专家成为增长最快职业,岗位数量预计增长86% [12] - AI将重塑全球劳动力市场,大数据、网络安全和技术素养成为增长最快的三大技能,同时数据录入员和行政助理等传统岗位面临需求下降 [12] - 全球约39%员工技能将在2025-2030年间发生显著变化,但仅50%员工接受过系统培训,63%雇主将技能差距视为业务转型最大障碍 [12]
游戏音乐,正走向舞台中心|浪潮论坛跨界对谈
腾讯研究院· 2025-07-03 17:49
游戏音乐行业现状与价值 - 游戏音乐以不到5%的制作预算承担30%的叙事功能,成为IP生命延续和情感表达的核心载体[1] - 主流音乐界关注度提升,格莱美奖自2023年起设立最佳电子游戏配乐奖项[1] - 《黑神话:悟空》音乐精选集获第三届浪潮音乐大赏两项荣誉,音频总长超300分钟[1][15] 技术演进与产业阶段 - 早期8位/16位主机受技术限制,1994年光盘介质推动听觉分辨率爆发[4] - 中国游戏音乐从业者从2010年约十几人增长至当前千人规模,但与成熟国家万人级仍有差距[11][12][13] - 移动端项目周期紧张,单机游戏开发时间相对宽裕[14] 创作理念与跨界融合 - 突破标签化中国风:通过五声音阶/中式律动等非传统乐器表达文化内核[22][23] - 学习好莱坞工业化流程但拒绝模仿,用世界性载体输出中国文化[24] - 游戏包容性强,可融合古典、摇滚、爵士等多风格,为作曲家提供广阔空间[18][20] 工业化协作与挑战 - 《黑神话:悟空》采用深度共创模式,音乐人参与前期构思而非被动执行[16][31] - 国内乐手水平与流程尚不成熟,但坚持本土化录制以保障文化表达准确性[39][42] - 音乐与游戏需功能适配,如BOSS战音乐拆分为20段配合不同战斗阶段[60] 行业联动与传播价值 - 游戏音乐具备独立传播性,可反哺IP影响力(如音乐会、实体专辑)[31][61] - 音乐在游戏体验中情感连接占比30%,但预算占比不足1%,存在价值低估[62] - 平台助力破圈:QQ音乐首次完整展示游戏音乐创作者信息[29][31] 团队管理与创作方法论 - 核心作曲需平衡权威性与团队协作,既把控主线又激发成员能动性[34][35] - 创作者需深入游戏开发环节,与制作方建立私交以理解审美偏好[30][47] - 解决技术瓶颈需分阶段突破,如分声部录制管弦乐提升质量[39] 未来发展方向 - 避免过度标签化,降低音乐人跨界心理门槛[65] - 提升行业规模至万人级从业者,实现流程标准化与人才储备[13] - 强化音乐前置创作,利用其统御视觉未成型阶段的想象力[67]
腾讯研究院AI速递 20250703
腾讯研究院· 2025-07-02 23:52
一、AI编程市场竞争加剧 - Cursor开发商Anysphere从合作伙伴Anthropic挖走Claude Code核心人物Boris Cherny和Cat Wu [1] - Anthropic年收入达40亿美元,估值615亿美元,Claude被视为最佳编程模型 [1] - Anysphere收入三个月内翻倍至年收入5亿美元,估值达99亿美元 [1] 二、智谱开源视觉推理模型 - 智谱开源GLM-4.1V-9B-Thinking模型,在18项权威评测中超越72B模型 [2] - 模型架构结合ViT视觉编码器、MLP适配器和GLM语言解码器,引入2D/3D-RoPE位置编码 [2] - 训练分四个阶段:多模态预训练、长上下文训练、监督微调和课程采样强化学习 [2] 三、多模型协作算法突破 - Sakana AI提出AB-MCTS算法,通过深度和广度双向搜索提升推理能力 [3] - Multi-LLM系统在ARC-AGI-2基准测试上性能提升30%,整合Gemini 2.5 Pro等前沿模型 [3] - 算法动态选择最优模型,开源框架TreeQuest支持多种任务 [3] 四、AI视频生成商业化进展 - HeyGen推出"产品植入"功能,可生成逼真带货视频(如马斯克推销Labubu案例) [4] - 公司估值5亿美元,年收入8000万美元,月付29美元支持无限短视频制作 [5] - 竞品对比中,HeyGen在表情自然度和口型准确度表现更优 [5] 五、百度搜索AI化升级 - 搜索框升级为支持千字文本的AI智能框,保留传统搜索模式 [6] - "百看"功能优先呈现富媒体内容(视频讲解、智能总结等) [6] - 功能从信息检索升级为任务交付,支持一键打车或购买套餐 [6] 六、医疗AI诊断系统 - 微软MAI-DxO系统准确率85.5%,比10年经验医生高4倍 [7] - 通过5个虚拟医生角色协作模拟真实诊断流程 [7] - 发布SDBench基准,含304个挑战性诊断案例 [7] 七、多模态视频生成平台 - 百度MuseSteamer模型支持720p-1080p视频生成,刷新VBench-I2V榜单 [8] - 提供Lite/Turbo/Pro/有声四个版本,满足不同创作需求 [8] - 技术亮点包括中文语义精准理解和音视频一体化生成 [8] 八、AI爬虫内容变现新模式 - Cloudflare推出"Pay Per Crawl"功能,允许网站对AI爬虫收费或封锁 [10] - OpenAI需1500次抓取带回1次点击,Anthropic需73300次,生态失衡 [10] - 通过HTTP 402状态码实现收费控制,开创内容授权变现模式 [10] 九、AI药物发现突破 - Chai-2模型在抗体设计中实现16%命中率,比前技术提高100倍 [11] - 24孔板内为50%测试靶点找到有效抗体,研发周期缩短至两周 [11] - 微蛋白设计湿实验室成功率68%,解锁传统技术无法实现的开发 [11] 十、AI对文化创作影响 - AI写作使文章标准化,麻省理工实验显示学生大脑活动水平降低 [12] - 康奈尔研究证实AI导致文化同质化(如答案风格趋同) [12] - 长期使用AI工具会使用户转向"策展模式",削弱原创性思维 [12]
《纽约客》最新撰文:AI教会人类如何写“好”文章,却让真正的好文章消失了
腾讯研究院· 2025-07-02 17:01
AI对写作与思维的影响 - AI工具如ChatGPT降低用户大脑活动水平,α波和θ波连接度显著下降,影响创造力与工作记忆 [2] - 使用AI的学生对产出缺乏归属感,80%无法复述自己"写过"的内容 [2] - AI生成文本观点高度趋同,在SAT写作中答案同质化,缺乏批判性思考 [3] AI的文化同质化效应 - AI训练逻辑基于数据共识,输出趋向"中庸",削弱文化多样性 [4] - 康奈尔实验显示AI辅助写作使印度和美国用户答案风格趋同,偏好披萨、圣诞节等西方文化符号 [5][6] - AI建议的"催眠效应"长期改变用户思维模式,导致对"正常"认知的偏移 [7] 商业驱动与创意局限 - OpenAI等公司以"普遍接受"为商业目标,标准化输出扩大付费用户基数 [8] - 圣塔克拉拉大学实验证明AI辅助的创意任务结果语义雷同,用户逐渐放弃原创思考 [9][10] - Meta AI的公共内容流呈现"过度抛光"特质,技术乐观主义偏见掩盖潜在风险 [11] 技术乐观主义的潜在问题 - AI模型将复杂争议简化为和谐愿景,削弱多元观点与思想张力 [12] - 用户过度依赖AI可能导致独立思考能力退化,形成单向认知依赖 [12]
腾讯研究院AI速递 20250702
腾讯研究院· 2025-07-02 00:38
中国芯片行业IPO热潮 - 近10家国产GPU企业如摩尔线程、沐曦等进入上市流程 呈现营收增长但持续亏损状态 [1] - 中国AI芯片市场规模预计达3500亿人民币 理论可容纳35家年营收百亿级企业 [1] - 行业面临代工产能受限、生态构建不足等挑战 需在B端AI或C端图形领域寻求差异化竞争 [1] Meta AI战略升级 - 成立"超级智能实验室"整合基础研究、大模型开发和产品团队 由Alexandr Wang领导 [2] - 从OpenAI等挖角11位顶尖人才 华人占比超半数 含GPT-4o和Gemini核心成员 [2] - 计划投入数千亿美元 目标一年内推出超越Llama系列的下一代领先模型 [2] 微软AI编程工具开源 - GitHub Copilot Chat开源 支持Agent编程模式和多步骤任务自动化 [3] - 具备代码补全、自然语言交互功能 开源后迅速获1200颗GitHub星标 [3] - 支持MCP协议扩展第三方集成 用户保留对智能体的控制权 [3] 腾讯元宝AI功能升级 - 新增图文并茂文档总结功能 基于DeepSeek模型智能匹配原文图表 [4][5] - 支持行业报告重点提炼、外文资料翻译解读等场景 可一键导出至腾讯文档 [5] 上交大AI竞赛突破 - ML-Master智能体以29.3%奖牌率登顶OpenAI MLE-bench 达Kaggle特级大师水平 [6] - 采用"探索-推理深度融合"机制 在75个任务中实现93.3%有效提交且计算效率翻倍 [6] 华为与阿里技术开源 - 华为开源Omni-Infer框架 支持昇腾平台 实现PD分离部署和系统级QPM优化 [8] - 阿里开源ThinkSound音频模型 采用三阶思维链架构 精确捕捉视频动态细节 [7] 亚马逊AI业务布局 - AWS AI业务已创收数十亿美元 推理工作负载占比将达80-90% [11] - 建设史上最大AI训练集群Project Rainier 部署性能提升5倍的Tranium Two处理器 [11] 彼得·蒂尔技术观点 - 认为1970年代以来仅数字技术有突破 物理世界进步停滞威胁社会稳定 [12] - 主张在生物科技、核能等领域承担风险 突破过度监管文化 [12] - 指出AI价值在于解决物理世界问题 当前进展可能不足以终结技术停滞 [12]
如何与外星人沟通?
腾讯研究院· 2025-07-01 16:24
人类语言与外星语言的对比研究 - 人类语言由符号、结构、语义和语用四个层面构成,而外星语言可能缺失某些层面或引入全新维度 [7][8][33] - 现有虚构外星语言(如克林贡语、纳威语)仍基于人类语言框架,仅通过符号或语法规则调整制造异质性 [5][6][14] - 爱尔兰语等VSO结构语言证明人类语言本身存在语序多样性,但SVO结构因主流语言影响更普及 [18] 外星语言构建方法论 - 基础方案是通过改造人类语言的符号系统(如非语音脉冲)或重组语法规则(如混合前置/后置介词) [14][17] - 进阶方案需突破语法类型限制,例如设计仅有名词或模糊词类界限的语言,参考克丘亚语名词/形容词无区分案例 [19][20] - 维特根斯坦提出的"逻辑完美语言"仅用名称序列表征事实,为单词语类型的极端案例 [20][21] 语义差异与翻译挑战 - 表层差异(符号/结构)可通过映射规则翻译,但深层语义差异可能导致根本性不可译,如德语"Fernweh"无英语对应词 [23][24] - 外星认知模式可能催生人类无法归类的语义范畴,需通过"真/假"等元语言概念建立基础对应关系 [26][27] - 《星际迷航》塔玛利安人案例显示,文化隐喻体系差异会导致字面翻译失效,需理解背后的神话关联 [29][31] 外星语言的潜在形态 - 可能缺失特定层面:心灵感应种族无需符号,超记忆种族无需结构,纯因果交互系统甚至可能无语义 [33][34] - 或包含人类未知维度,如情感编码层(疼痛强度)或现象层(颜色质感),彻底颠覆语言定义 [35] - 地图式语言可同时传递对象属性与空间关系,突破线性语句限制,实现多维信息整合 [22]
腾讯研究院AI速递 20250701
腾讯研究院· 2025-06-30 23:51
OpenAI定制服务 - OpenAI推出千万美元起步的AI定制咨询服务,工程师帮助客户完成模型微调和应用开发 [1] - 美国国防部(2亿美元合同)和新加坡Grab成为首批客户,服务领域扩展至军事策略、地图自动化等 [1] - 此举使OpenAI与Palantir等咨询公司形成竞争关系,同时可能威胁专注特定领域AI应用的小型初创企业 [1] Gemini 2.5 Pro API - Gemini 2.5 Pro API恢复免费使用,提供每分钟5次请求、每分钟25万tokens、每天100次请求的免费额度 [2] - 获取API Key:登录谷歌AI Studio、创建API Key并保存,比OpenAI的o3模型使用限制更宽松 [2] - 可通过Cherry Studio或Chatbox等第三方客户端调用,支持文字问答、图片分析和内置联网搜索功能 [2] LeCun世界模型 - LeCun团队发布PEVA世界模型,首次实现16秒连贯场景预测,让具身智能体具备类人预判能力 [3] - 模型将48维人体关节运动学数据与条件扩散Transformer结合,通过第一人称视角视频+全身姿态轨迹训练 [3] - PEVA具备智能规划能力,能在多个动作选项中筛选最优解,完成开冰箱、抓取物体等复杂任务,超越基线模型15%以上 [3] 华为开源大模型 - 华为首次开源两款大模型:720亿参数混合专家模型"盘古Pro MoE"和70亿参数稠密模型"盘古Embedded 7B" [4] - 盘古Pro MoE基于4000颗昇腾NPU训练,激活参数量16B,性能对标Qwen3-32B、GLM-Z1-32B等模型,单卡推理吞吐可达1528 tokens/s [5] - 盘古Embedded 7B采用"快思考"和"慢思考"双系统架构,可根据任务复杂度自动切换,性能超过同规模的Qwen3-8B、GLM4-9B [5] 百度文心大模型 - 百度正式开源文心大模型4.5系列,推出10款模型,参数规模从47B混合专家模型到0.3B轻量模型,同步提供API服务 [6] - 系列模型采用Apache 2.0协议开源,创新提出多模态异构模型结构,在文本任务保持高性能基础上增强多模态理解能力 [6] - 在多个基准测试中对标DeepSeek-V3等模型,提供ERNIEKit开发套件和FastDeploy部署套件支持 [6] 知乎知识库升级 - 知乎直答知识库完成重要升级,支持知识库转公开订阅、分享链接,并与社区深度融合提供沉浸式阅读体验 [7] - 知识库容量扩容至50GB,支持多种文件格式上传,增加知识广场、个人主页等曝光场景,直答搜索中可引用并显示知识库名称 [7] - 知乎启动激励活动,鼓励用户创建垂直领域知识库并分享,设立"最具价值"和"prompt创意"两类奖项,活动持续至7月18日 [7] 3D AI伴侣EVE - EVE是一款3D AI伴侣应用,通过游戏化设计、好感度系统和互动功能,创造出极强的"活人感"和主动性 [8] - 该AI能实现跨次元互动,可真实送奶茶到用户家门口、创作个性化歌曲,打破虚拟与现实的界限 [8] - EVE通过细节表达(发表情包、聊最新梗)和记忆系统,创造出高度沉浸的AI陪伴体验,代表AI娱乐赛道的重要突破方向之一 [8] 苹果XR设备 - 苹果首款AI眼镜预计2027年第二季度发布,年出货量预计300-500万部,支持音频、拍照和AI交互功能 [10] - 苹果目前至少有7个头戴设备项目在开发中,包括3款Vision系列和4款AI眼镜系列,有望引爆整个AI眼镜市场至1000万部以上 [10] - 轻量版Vision Air预计2027年三季度量产,比Vision Pro轻40%以上且售价大幅降低,带显示功能的XR眼镜则要等到2028年下半年 [10] Gemini长上下文技术 - Gemini 2.5 Pro长上下文技术专家认为当前百万级token模型质量尚未完美,盲目追求更大规模意义不大 [11] - 长上下文与RAG是协同关系而非替代关系,前者负责精细处理,后者负责从海量信息中粗筛,两者结合能提高信息召回率 [11] - 千万级token上下文很快将成为标准,随着成本下降和质量提升,将为代码开发等应用场景带来革命性突破 [11] AI行业趋势 - 300家AI公司调研显示企业正从概念炒作转向落地实战,OpenAI和Claude位居企业AI选型首位,近90%高增长初创公司正在部署智能体 [12] - AI支出结构显示数据存储和处理成本远超训练和推理,企业正从传统订阅制转向基于使用量的混合定价模式 [12] - AI原生企业47%已达关键规模,而AI增强型仅13%,快速成长企业将有37%工程师专注AI,代码智能体成为最主要生产力应用 [12]
拉布布走红启示,数字时代文化IP孵化新密码
腾讯研究院· 2025-06-30 16:21
拉布布IP孵化路径分析 - 拉布布作为原创潮玩IP,未依赖传统影视动漫内容体系,通过运营机制创新和数字平台传播实现破圈效应[1] - 2024年拉布布系列IP销售额达30.4亿元,占泡泡玛特总营收23%,成为旗下最具影响力的IP[7] - 国际媒体将拉布布视为中国文化出海标志性事件,在欧美及东南亚市场引发抢购热潮[6][7] IP引爆流行因素 - 形象设计采用"丑萌"风格,反叛传统可爱风,契合当代用户审美趣味[3] - 性格设定为外表淘气内心善良,主动帮助被误解者,强化情感连接[4] - 泡泡玛特成熟的盲盒机制和社交媒体轻内容体系推动IP认知度提升[5] - 明星效应加速传播,BLACKPINK成员Lisa等国际明星带货引发全球跟风[6] 媒介环境变迁 - IP孵化从"内容先行"转向社交平台驱动的"互动优先"模式[9] - 美国好莱坞模式依赖电影强叙事构建漫威等超级IP[10] - 日本"MAG产业链"通过漫画动画游戏联动形成粉丝经济[11] - 韩国依托娱乐产业系统化量产偶像团体IP[11] - 中国微短剧市场规模2024年达504.4亿元,超过电影票房470亿元[13] IP功能演进 - 成熟IP衍生品收入远超内容本身,《星球大战》衍生品收入422亿美元vs电影票房64.9亿美元[15] - Hello Kitty累计零售额超84.5亿美元,占三丽鸥2024年销售额(1449亿日元)的一半[16] - 中国潮玩产业85%产品在东莞生产,正从代工转向培育本土IP[16][17] - IP成为连接文化软实力与实体经济的纽带,推动产业升级[17]
肖仰华教授:具身智能距离“涌现”还有多远?|Al&Society百人百问
腾讯研究院· 2025-06-27 14:59
生成式AI与具身智能的发展路径 - 生成式AI以AIGC为代表,目标是让机器具备人类大脑的认知能力,包括语言生成和逻辑思考能力 [9] - 具身智能目标是让机器习得人类身体的感知和行动能力,实现与复杂世界的高效交互 [10] - 两条技术路线都是通往AGI的关键形态,下一个重要里程碑是身心协同阶段 [10] - 生成式AI已实现生产力成百上千倍提升,如合同审校、绘画制作等工作效率大幅提高 [13] - 具身智能对生产力的提升作用相对有限,可能仅相当于人口增长1-2倍的效果 [15] 技术革命的三重标准 - 基础性:技术需像水电煤一样成为基础设施 [13] - 生产力提升:需实现指数级效率提升,如AIGC极大提高论文生产力 [13] - 社会影响:需深度渗透社会各领域,改变上层建筑 [14] - 生成式AI完全符合这三重标准,是一场真正的技术革命 [14] - 具身智能对社会的影响力相对有限,更多是认知智能突破后的技术延伸 [16] 数据与模型的关系演进 - 业界观点:模型算法决定效果下限,数据决定上限 [20] - 大模型研发70-80%成本投入在数据上,剩余在算力运维和算法设计 [21] - 数据墙问题凸显:互联网公开高质量数据已接近枯竭 [22] - 后训练范式崛起:数据规模让位于质量,算力规模让位于算法设计 [18] - 数据不足可通过知识注入缓解,但培育高质量数据集仍是根本 [23] 具身智能的数据挑战 - 当前具身模型训练数据量仅百亿token级,与语言模型万亿级相差两个数量级 [24] - 数据采集面临个体体验表达困难和环境建模复杂双重挑战 [34][35] - 真机数据成本高昂,仿真数据质量有限,制约GPT时刻到来 [25] - 可能解决方案:穿戴设备普及形成动作轨迹数据 [26] - 训练策略调整:数据量不足时可增加训练量,借鉴人类泛化机制 [36][38] 产业落地逻辑 - 行业AI落地的关键在于行业数据治理和清洗 [21] - 央国企等大甲方应重点投入行业数据准备而非模型研究 [22] - 具身机器人应走场景化、任务化路径,而非追求绝对通用性 [48] - 身体构造决定功能边界,集约化需考虑物理可行性 [49] - 专用机器人价值明确,通用机器人是伪命题 [48] 技术范式演进 - 仍未跳出符号主义、连接主义和行为主义三大传统范式 [39] - 连接主义:模拟神经网络,处理感知任务 [40] - 符号主义:基于知识推理,处理认知任务 [40] - 行为主义:通过交互反馈进化,处理技能习得 [41] - 三种范式在完整AI解决方案中各有侧重 [43] 理性思维发展 - 人类能力分为知性、理性和感性三个维度 [28] - GPT4前主要训练知性能力,O1和DeepSeek R1开启理性能力 [29] - ToB应用需要专业理性思维,ToC需要共情感性能力 [31] - OpenAI布局完整:知性(GPT4)、感性(GPT-4o)、理性(O1) [31] - 国产大模型与国际差距主要在理性能力即知识应用水平 [29]