腾讯研究院
搜索文档
微短剧出海,中国原创叙事的价值突围挑战
腾讯研究院· 2025-09-30 15:33
微短剧出海市场现状与表现 - 微短剧出海正从局部市场突破走向更广范围扩散,在东南亚、中东、北美等市场热度持续攀升,其中美国市场表现最为亮眼[2][4] - 2024年中国短剧APP海外收入达12亿美元,其中60%的收入来自美国[4] - 北美市场因互联网用户基础庞大、流媒体用户消费习惯成熟且付费能力强,成为短剧出海的关键市场[4] - 目前北美短剧市场以爱情题材为主导,霸道总裁、甜宠、复仇等"爽点"剧情最受欢迎,女性用户是绝对消费主力,25-54岁为核心年龄段[5] - 海外市场短剧供给约90%是译制剧,但占比10%的本土剧却贡献了主要的内购收入[7] 微短剧内容特征与用户吸引力 - 短剧具有快节奏叙事、多反转悬念、强情绪刺激等特征,为观众带来极高的情绪与娱乐价值[5] - 其轻便的单集体量适配移动用户碎片化、轻量化的媒介使用习惯,满足通勤、休息等场景的时间消磨需求[5] - 每集都以强大的内容钩子(如关键情节处戛然而止)吸引用户付费解锁,被称为"TikTok时代的肥皂剧"[6] - 受欢迎的内容题材(浪漫恋爱、打脸复仇、身份翻转等)的人性内核无分国界,但需进行本土化再创造,如融入狼人吸血鬼、牛仔、消防员等欧美熟悉元素[6] 微短剧出海商业模式与成功案例 - 短剧出海采用"译制剧与本土剧"双模式并行,译制剧通过翻译、配音方式推向海外,本土剧则由中国公司在美国建立生产基地与本地团队合作生产[7] - ReelShort采用"应用内广告+应用内购买"的混合付费模式,用户可免费观看前几集,在剧情高潮处需以金币解锁后续内容,金币可通过内购或广告观看、签到等方式获取[12] - ReelShort在北美市场依托Facebook、Instagram与TikTok等平台进行定向广告投放,以情节片段与情绪钩子吸引潜在用户点击与下载[12] - ReelShort基于母公司积累的优质IP与用户偏好数据,将经过市场验证的网文IP快速转化为短剧内容,提升爆款成功率[11] 微短剧产业影响与生产模式 - 短剧在美国的兴起为当地演员与创作者提供新的就业机会,在美国专业招聘平台Backstage上关于短剧的招募信息已超半数[13] - 短剧体现出有别于好莱坞的"轻工业化"内容模式,通常在8天内完成40-50集拍摄,3个月内完成从开发到上线全流程,单部剧集成本控制在30万美元左右[14] - 短剧依托数据化运营机制,将用户付费人数、付费节点等作为反馈依据,实现快速市场验证与迭代更新,形成批量复制与资本快速回笼机制[14] - 一些好莱坞传统影视公司如狮门影业以及日本、韩国的影视产业也开始关注并尝试开发短剧形态[15] 微短剧发展挑战与未来方向 - 短剧面临内容同质化与本土化问题,以"百亿丈夫""千亿丈夫"等类型化叙事为代表的爆款复制逻辑导致观众审美疲劳[18] - 商业模式的可持续性存在不确定性,在竞争加剧背景下用户付费空间可能受挤压,平台投放成本可能持续上升推高获客成本[18] - AI技术已渗透至IP评估、剧本生成、视频剪辑等全流程环节,为短剧的精细化、高效化和工业化生产提供基础设施支持[19] - 微短剧未来发展的关键在于如何在跨文化交流中既保留中国短剧特有的叙事节奏与情绪表达,又实现本地化创新与长期生态构建[20]
腾讯研究院AI速递 20250930
腾讯研究院· 2025-09-30 00:01
生成式AI - DeepSeek-V3.2-Exp引入稀疏注意力机制 大幅提升长文本训练和推理效率 [1] - 模型在HuggingFace和魔搭平台开源 同步公开论文及算子代码 [1] - 官方API价格下调50%以上 服务成本大幅降低 [1] - 智源RoboBrain-X0实现零样本跨本体泛化 可直接部署在不同厂商和结构的真实机器人 [2] - 通过统一动作表征体系将复杂动作拆解为标准化token序列 学习任务"做什么"而非"怎么动" [2] - 真机跨本体评测总体成功率48.9% 是基线模型π0的近2.5倍 基础抓放任务成功率100% [2] - 混元3D-Omni支持骨骼姿态、边界框、点云和体素四类控制信号 是业界首个统一多种条件控制的3D生成模型 [3] - 通过轻量化统一控制编码器和渐进式难度感知训练策略 实现精细化3D资产生成及多模态融合 [3] - 有效解决单视图生成"纸片物体"问题 成功重建几何细节并确保比例与真实物体精确对齐 [3] - GPT-5在半小时内提出数学函数方案 正确指出度有理函数编码最大特征值信息 [4][5] - 研究给出2008年QMA分离结果的定量版本 证明某条研究路径已走到尽头 [4][5] 量子计算 - 加州理工团队创造全球最大中性原子量子计算机 实现6100量子比特阵列 [6] - 相干时间达13秒 比此前长10倍 单比特操控精度达99.98% [6] - 使用光镊技术捕获原子并实现量子比特在阵列中移动数百微米且保持叠加态 [6] - 在规模、精度和相干性三方面取得突破性平衡 巩固中性原子作为量子计算领先平台的地位 [6] AI发展前景 - AlphaGo核心研究者驳斥AI停滞论 指出AI从完全无法完成编程设计任务到现已能胜任的巨大进步 [7] - METR研究显示AI能力保持指数增长 最新模型能自主完成2小时以上任务 7个月能力翻倍 [7] - Claude Opus 4.1在44个职业中已接近人类专家水平 [7] - 预测2026年中期模型可自主工作8小时 年底前在多行业达到专家水平 2027年底将频繁超越专家 [7] - 英伟达GPU主导地位将在2-3年内被打破 市场从90%集中度转向多元化生态 [8] - 推理成本已下降100倍且未来有望再降10倍 主要得益于MoE架构和模型量化等技术突破 [8] - AI应用将分化为传统聊天机器人、极低延迟场景和大规模批处理三类工作负载 [8]
附下载|业内首份企业级智能体产业落地研究报告:从场景试点到规模化应用实践
腾讯研究院· 2025-09-29 16:03
智能体范式转变 - 人工智能正从辅助工具向自主生产力发生深刻的身份跃迁,推动AI从被动执行者进化为能够自主理解目标、规划路径、调用工具的数字员工[6] - 大型语言模型在推理、规划与工具调用能力上的飞跃是变革背后驱动力,思维链与反思机制赋予智能体类人的规划与纠错能力[7] - 智能体应用形态百花齐放,在个人生活领域演变为数字伙伴,在企业运营中以嵌入式或产品化形态深度融入核心业务流[8] - 智能体能力边界从数字世界向物理世界延伸,与机器人、自动驾驶等硬件深度融合推动具身智能发展[9] 智能体核心能力与结构 - 智能体具备大脑(自主规划)与双手(工具调用)的协同结构,通过无缝调用API、数据库与应用程序将模型思考转化为真实行动[7][8] - 多个智能体构成的协同网络正以虚拟项目组形式自主完成软件开发、市场研究等复杂项目,预示着全新组织形态与生产关系正在形成[8] 企业级智能体应用场景评估 - 报告创新提出智能体场景罗盘,以任务复杂度和自主规划依赖度为坐标划分高效助手、执行专家、决策专家、全能专家四大象限[19] - 为企业提供覆盖金融、零售、医疗、教育、制造、出行、政务等14大行业100多个典型智能体应用场景参考[19] - 智能体规模化落地面临训推成本高昂、模型幻觉与泛化性问题、安全防护等六大挑战[19] 行业先锋实践案例 - 华住集团打造7×24小时全能酒店管家,住客提出需要一瓶水后,AI管家可在5秒完成响应并调度机器人完成配送[20] - 绝味食品AI会员营销智能体由人群洞察、智能选品等5个子Agent协同工作,在对比测试中AI组销售业绩是人工组的3.1倍[20] - 邯郸公积金边聊边办数字柜台将退休提取业务办理时间从15分钟缩短至3分钟,提速超过80%[20] - 碧桂园服务构建一问知识库与问答机器人,接入30多个业务系统提供7×24小时自动答疑[20] - 运达能源科技集团装配支持智能体通过自然语言快速理解现场提问,显著减少人员查找资料和等待支持时间[20]
腾讯研究院AI速递 20250929
腾讯研究院· 2025-09-29 00:01
生成式AI行业动态 - OpenAI被曝在用户不知情情况下将GPT-4和GPT-5等模型路由至低算力敏感模型"gpt-5-chat-safety"和"gpt-5-a-t-mini" 当系统判定内容涉及敏感话题或情绪表达时自动触发切换 [1] - OpenAI回应称切换为临时性安全路由系统测试 但未经同意的模型更改行为引发用户权益质疑 [1] - 腾讯发布工业级原生多模态生图模型混元图像3.0 参数规模80B 是目前测评效果最好且参数量最大的开源生图模型 [2] - 混元图像3.0基于50亿级图文对和6T语料训练 具备千字级复杂语义解析能力 支持长文本生成和小文字处理 [2] - 快手推出KAT-Dev-32B开源和KAT-Coder闭源两款Agentic Coding大模型 在SWE-Bench Verified上分别达到62.4%和73.4%解决率 [3] - 快手开发基于熵的树剪枝技术和强化学习训练框架SeamlessFlow 模型经训练后涌现出对话轮次减少和多工具并行调用新能力 [3] AI教育应用进展 - 好未来提出AI教师L1-L5分级理论 学而思"小思AI一对一"对标L3级别 能实现实时观察学生解题步骤并提供针对性引导 [4][5] - L3级AI教师需配备多模态传感器和专用硬件 形成"批改-讲题-推荐"数据飞轮 数学解题正确率达98.1% [5] - 好未来自研"九章"大模型结合20多年教研内容 在线下培训、在家学习和进校学习三大场景实现统一学情画像 [5] 前沿科技战略布局 - Meta计划投入数十亿美元研发人形机器人"Metabot" 战略地位与AR项目同级 聚焦软件开发而非硬件制造 [6] - Meta拟采用软件平台授权模式 与机器人制造商合作建立行业通用标准 新成立超级智能人工智能实验室构建物理"世界模型" [6] - 谷歌DeepMind视频模型Veo 3涌现四层能力:感知经典视觉任务、建模物理定律、操纵图像编辑、推理视觉问题 [10] - Veo 3通过帧链(CoF)技术实现跨时空推理 在七个代表性任务上显著超越Veo 2 可能成为视觉领域的GPT-3时刻 [10] 技术理论与方法创新 - 图灵奖得主Richard Sutton认为大语言模型是错误起点 强调真正智能需通过经验学习实现 而非对人类行为的模仿 [7] - 陈丹琦团队提出RLMT方法 将显式思维链推理融入通用聊天模型 在WildBench等基准测试中表现优异 [8][9] - RLMT要求模型生成推理轨迹后再输出最终答案 通过奖励模型评分 使推理风格从线性规划转变为迭代式思考 [8][9] 行业战略与市场展望 - 英伟达从芯片公司转型为AI基础设施合作伙伴 通过极端协同设计构建AI工厂生态系统 竞争护城河基于总拥有成本优势 [11] - AI推理将迎来十亿倍增长 预训练、后训练和推理三大扩展定律驱动万亿级市场 年度AI基础设施资本支出预计达5万亿美元 [11] - 主权AI时代各国需建立独立AI基础设施 主张通过技术出口最大化影响力而非脱钩 保持美国梦品牌吸引全球人才 [11]
腾讯研究院AI速递 20250928
腾讯研究院· 2025-09-28 00:01
ChatGPT新功能Pulse - OpenAI推出ChatGPT新功能"Pulse"预览版 首先向Pro用户开放 每晚根据用户聊天记录和反馈提供个性化内容推送 [1] - 该功能基于智能体开发 能主动进行异步搜索 支持链接Gmail和Google日历以提供更相关建议 [1] - Pulse通过主题卡片形式呈现内容 用户可点赞或踩赞提供反馈 这是将ChatGPT从完全被动转变为主动的第一步 [1] Thinking Machines研究突破 - 估值840亿元的Thinking Machines发布第二篇研究论文"Modular Manifolds" 通过让网络不同层在统一框架下进行约束和优化提升训练稳定性和效率 [2] - 研究者提出模块化流形方法 解决神经网络训练中权重数值过大或过小导致的不稳定问题 并提供详细理论分析与实验验证 [2] - 公司创始人Mira Murati与翁荔等纷纷转发支持 此前已发布首篇研究解决大模型推理中的不确定性问题 [2] 谷歌Gemini Robotics 1.5 - 谷歌DeepMind发布针对机器人和具身智能的Gemini Robotics 1.5系列家族模型 包括Gemini Robotics 1.5和Gemini Robotics-ER 1.5两款模型 [3] - Gemini Robotics 1.5是最先进的视觉-语言-行动模型 能将视觉信息和指令转化为机器人动作 Gemini Robotics-ER 1.5是最强大的视觉-语言模型 能推理物理世界并创建多步骤计划 [3] - 两款模型协同工作 可让机器人执行垃圾分类 行李打包等复杂任务 支持思考后行动 实现跨不同机器人形态的技能迁移与泛化学习 [3] Kimi Agent模型OK Computer - Kimi推出全新Agent模型"OK Computer" 依托Kimi K2 能完成网站搭建 PPT制作和百万行数据处理等复杂任务 [4] - 模型操作时会列出Todo List进度表 自主完成网页搜索 素材生成 代码编写与检查 最终输出可交互 可复用的结果 [4] - 设计类任务能自主规划并实现各模块功能 分析类任务能自动搜集数据并提供可视化图表 生成类任务支持多种内容输出与编辑 [4] 腾讯混元3D生成模型 - 腾讯混元3D团队推出业界首个原生3D组件生成模型Hunyuan3D-Part 包含P3-SAM(3D分割)和X-Part(组件生成)两大模块 [5] - 该模型能生成高质量 可投入生产和结构合理的组件式3D内容 解决游戏制作与3D打印行业对可分解3D形状的需求 [6] - 模型从语义特征和边界框检测到部件生成全流程优化 在PartObj-Tiny等多个基准上大幅超越现有工作 已开源且提供线上体验入口 [6] AI电影制作进展 - 香港动画公司ManyMany Creations制作的15分钟全AI短片《九宵》成功入选釜山国际电影节"未来影像"AI电影国际峰会 [7] - 峰会还展映《权利游戏》《法体》等四部AI短片 这些作品真正利用AI作为叙事手段 探讨女性主义 平庸之恶等社会主题 [7] - 博纳影业已成立国内首个AI制作中心 利用AI将电影制作周期从数年压缩至1.5-2年 并大幅降低成本 [7] 苹果MCP系统级支持 - iOS 26.1 iPadOS 26.1和macOS Tahoe 26.1开发者测试版代码显示 苹果正在为App Intents引入MCP支持 将允许ChatGPT Claude等AI模型直接与苹果设备应用交互 [8] - MCP(模型上下文协议)由Anthropic提出 作为AI领域的通用插口 能让模型与外部服务安全对话 已被Notion Google Figma OpenAI等采用 [8] - 苹果构建系统级MCP支持 既能利用行业生态 又能强制执行隐私安全标准 体现从全栈自研向平台化的战略转变 [8] 医学影像数据集项目 - 上海人工智能实验室等机构联合发起Project Imaging-X 系统梳理2000-2025年间1000+医学影像数据集 揭示医学数据小而散 偏科严重的格局 [9] - 研究显示医学影像数据与通用视觉存在数量级差距 病理数据超过其他类型 分类与分割任务占主导 CT和MRI为主要3D数据类型 [9] - 项目提出元数据驱动融合范式(MDFP) 通过元数据统一 语义对齐 融合蓝图和索引共享四阶段流程实现数据集整合 已开发交互式数据发现门户 [9] 红杉AI生产力研究 - 红杉最新研究揭示GenAI鸿沟 仅5%公司从AI获得显著价值 95%因静态工具与流程脱节而未能受益 核心问题是AI系统学不会 推不开 用不深 [10] - 研究指出企业AI失败的三大原因 AI工具缺乏从用户反馈中学习的能力 95%的定制AI方案未能从试点扩展至规模化部署 员工转而使用个人AI服务形成影子AI经济 [10] - 22-25岁初级岗位已出现大规模替代 AI首先替代书本知识 专家经验成为新护城河 创业者应打造能学习的AI代理 深度融入企业后台流程 [11]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-09-27 10:33
芯片领域 - 联发科发布天玑9500芯片[3] - a16z等机构关注AI算力竞赛与未来发展趋势[3] - 高通推出骁龙系列AI芯片[3] 算力与智能体 - 无问芯穹提出智能体蜂群概念[3] 模型技术进展 - DeepSeek发布V3.1终极版模型[3] - 美团推出LongCat-Flash-Thinking模型[3] - 百度发布Qianfan-VL模型[3] - 阿里推出Qwen3-Omni模型[3] - Meta开发代码世界模型[3] 应用产品发布 - Chrome集成Gemini AI助手[3] - Notion发布Notion 3.0版本[3] - 腾讯推出混元3D Studio[3] - 阿里发布Wan2.2-Animate应用[3] - Luma AI推出Ray3推理视频模型[3] - ElevenLabs发布Studio 3.0[3] - 小米开发MiMo-Audio语音模型[3] - OpenAI推出计算密集型新产品[4] - 谷歌提出Deep Research范式[4] - 可灵发布2.5视频模型[4] - Kimi推出Agent会员服务[4] - 清华大学发布MiniCPM-V 4.5[4] - 腾讯推出ima鸿蒙电脑版[4] - 智元机器人发布GO-1通用具身基座[4] - 谷歌推出AI画板工具[4] - 阿里发布Wan2.5系列[4] - 快手推出可灵2.5 Turbo[4] - 秘塔AI推出Agentic Search[4] - Suno发布V5模型[4] - Niantic开发AR眼镜游戏[4] - 谷歌推出神经操作系统[4] - 生数科技发布Vidu Q2[4] - 夸克推出造点AI[4] - 阶跃AI推出AI桌面伙伴[4] - 智源研究院发布RoboBrain-Audio[4] - 京东开源JoyAgent[4] 科技前沿 - Retro研究"逆龄大脑药"[4] - Arc研究所开发AI生成基因组技术[4] - Skild AI研发机器人控制系统[4] 资本动态 - 英伟达投资OpenAI[4] 行业事件 - 麻省理工科技评论评选35岁以下科创35人[4] 行业观点 - OpenAI提出Codex最佳实践和图像生成发展观点[4] - Nano Banana发表行业观点[5] - OpenAI进行LLM第一性思考[5] - 未知机构研究心理学增强AI技术[5] - 宇树科技探讨技术瓶颈[5] - Google Cloud发布AI创业者报告[5] - OpenAI出版《丰盛的智能》[5] - 陶哲轩关注社群现象[5]
瓷都上云
腾讯研究院· 2025-09-26 18:13
腾讯探元计划与景德镇文化遗产数字化 - 腾讯探元计划是推动文化和科技深度融合的共创孵化项目 专注于资助从0到1的原创性前瞻性项目 [2] - 探元计划2024选择在景德镇资助基于时域技术的陶瓷数字化光学孪生解决方案 旨在建立千馆万瓷陶瓷文化遗产数字资产版本库 [2] 景德镇历史地位与转型发展 - 景德镇瓷器在千百年中外贸易史上占据重要位置 改革开放后仍为国家出口创汇做出贡献 [3] - 上世纪九十年代末十多个国有瓷厂关停并转 2009年因高岭土枯竭被列为资源枯竭型城市 制瓷业从集体化大生产退回到分散小生产模式 [6] - 2017年九景衢铁路通车 2023年昌景黃铁路开通 高铁进入景德镇 2022-2024年游客人数增速超30% 2024年接待游客超6000万人次 是常住人口40倍 [6] 御窑厂考古与文物修复 - 御窑厂专为明清皇家烧造御用瓷器 落选瓷器因瑕疵被砸碎销毁埋藏 遗址碎瓷片数量达数千万至亿计 堆积深度3-20米 [9][11] - 考古专家发掘修复约800件珍贵文物 包括明成化半成品斗彩鸡缸杯(其传世珍品2014年拍出2.8亿港币)和明成化素三彩鸭形香薰炉岁岁鸭 [12][14] - 御窑博物院建立全球首个古陶瓷基因库 为出土文物建立数字档案 包含造型纹样色彩胎釉装烧款识等8大核心信息及全球关联馆藏数据 [16][20] 数字技术应用与创新 - 千馆万瓷项目通过时域光学孪生技术进行高精度光学采集 构建瓷器数字资产库 已部署四套专业设备24小时不间断运行 [22][23] - 技术通过多光谱时序扫描与动态光场建模 还原陶瓷表面冰裂纹釉变渐变等细节 累计完成1万多件数字化采集 为15家机构提供高保真数字化服务 [22][27] - AI技术辅助二维三维碎瓷片比对拼接 提升修复效率 古陶瓷基因库未来将开放共享给全球研究者解析文明变迁 [15][20] 当代陶瓷艺术与品牌创新 - 三宝村制瓷历史追溯至五代时期 2010年后国内外艺术家进驻形成多元化创意社群 设计师汤远卓2016年创立融白品牌探索传统陶瓷当代化 [29][31] - 品牌从自然中获取灵感(如藻绿釉源自水藻 岩灰釉取材岩石机理) 通过现代设计语言将传统技艺延伸为现代生活美学 [32][36] - 景德镇新兴品牌坚持原创风格 将传统制瓷技艺与当代设计结合 创造兼具文化底蕴和现代需求的作品 让陶瓷艺术走进日常生活 [36][37] 城市文化生态与矛盾融合 - 景德镇呈现御窑厂传奇与老城街巷并存 艺术家世外桃源与游客热潮并存 千年技艺传承与数字化创新并存的多重矛盾张力 [39] - 传统匠人与年轻新潮理念碰撞激发个体创新和市场活力 乐天陶社市集为避游客从市中心迁至10公里外乡村 [6][39]
腾讯研究院AI速递 20250926
腾讯研究院· 2025-09-26 00:01
高通AI芯片发布 - 高通发布第五代骁龙8至尊版手机芯片 采用3nm工艺 CPU性能提升20% GPU性能提升23% NPU性能提升37% [1] - 推出骁龙X2 Elite系列PC处理器 NPU算力达80TOPS 首次实现Arm架构5GHz稳定运行 AI性能是英特尔竞品的5.7倍 [1] - 重点布局AI智能体技术 支持跨设备协同处理 实现手机 眼镜 手表等设备间无缝协作和个性化智能体验 [1] Meta代码世界模型开源 - Meta发布首款代码世界模型CWM 创新性地将世界模型引入代码生成任务 能预测代码执行效果来优化生成质量 [2] - 该32B参数模型在SWE-bench Verified测试中获得65.8%成绩 属开源阵营第一梯队 接近闭源Gemini-2.5-Thinking性能 [2] - CWM目前仅为概念验证Demo 通过模拟Python程序执行和Agent交互 验证世界模型能否显著改善代码生成效果 [2] 谷歌神经操作系统原型 - 谷歌推出由Gemini 2.5 Flash驱动的"神经操作系统"原型 界面完全由AI实时生成 无需预编码 根据用户交互动态调整 [3] - 核心技术采用"UI章程+UI交互"双重输入机制 结合交互追踪和流式生成技术 实现几乎瞬时的响应体验 [3] - 通过生成式UI图谱解决无状态问题 提供会话专属内存缓存 为智能化人机交互界面开辟新的研究方向 [3] 生数科技视频模型发布 - 生数科技发布Vidu Q2图生视频模型 实现从"视频生成"到"演技生成"的跨越 能精准表现复杂细微表情和武打动作场景 [4] - 新模型在镜头语言和语义理解方面显著提升 支持复杂运镜切换和精准提示词遵从 实现"指哪打哪"的创作体验 [5] - 提供2-8秒时长自由选择和闪电模式20秒生成5秒1080P视频 兼顾创作灵活性与极速生产效率 [5] 京东AI技术开源 - 京东全面开源AI技术栈 包括企业级智能体JoyAgent 3.0 多智能体框架OxyGent和医疗大模型京医千询2.0等核心项目 [6] - JoyAgent 3.0新增DataAgent数据分析能力 在GAIA评测中验证集准确率达77% GitHub已获10.1k Star [6] - 京东通过系统性开源构建技术生态 降低企业AI落地门槛 推动行业标准化和协同发展 [6] 夸克AI创作平台发布 - 夸克发布造点AI创作平台 集成Midjourney V7和通义万相Wan2.5 MJ V7半价提供 Wan2.5提供7天免费体验 [7] - 平台支持AI生图和生视频功能 MJ V7保持原生效果并降低使用门槛 夸克图像1.0专长亚洲人像和中文内容生成 [7] - Wan2.5升级支持音画同步生成 10秒1080P视频输出和音频驱动功能 显著提升人物一致性和创作实用性 [7] 阶跃AI桌面伙伴推出 - 阶跃AI推出桌面伙伴"小跃" 常驻桌面右上角 支持多任务并行执行和本地文件操作 可通过"妙计"功能复用操作步骤 [8] - 小跃具备自主任务规划能力 能处理面试准备 电商追踪 发票整理等复杂任务 支持定时任务和系统提醒功能 [8] - 目前仅开放Mac版本邀请测试 Windows版本开发中 用户可通过官网下载并申请邀请码体验 [8] 智源语音大模型开源 - 智源研究院发布RoboBrain-Audio 首个支持原生全双工语音对话的大模型 实现"边听边说"交互 响应延迟降至80ms级别 [10] - 创新采用"自然独白对齐"机制替代词级对齐 结合双训练范式(后训练+有监督微调) 仅用100万小时数据达到业界先进水平 [10] - 在ASR TTS和全双工对话任务中表现领先 将与RoboBrain系列整合 推动具身智能体语音交互能力发展 [10] Skild AI机器人控制系统 - 估值45亿美元的Skild AI发布Skild Brain机器人控制系统 在包含十万种机器人形态的虚拟环境中训练千年 可适应各种故障和未见过的机器人 [11] - 该系统具备强适应性 能处理肢体断裂 马达故障等突发情况 通过上下文学习快速调整控制策略 记忆窗口比传统系统长100倍 [11] - 公司由两位CMU教授创立 已完成4.14亿美元融资 投资者包括软银 英伟达 红杉资本等知名机构 [11] 陶哲轩社会组织分析 - 陶哲轩提出现代社会四层分析框架 认为当前技术与激励机制在赋能个体和大型组织的同时 严重削弱了小型组织的生态位 [12] - 小型组织能提供真实的社交情感连接和个体影响力 而大型组织虽有经济优势 却让个体感到疏离和无力感 [12] - 建议重视新兴草根组织的价值 认为这些小型组织能为个体提供归属感 并成为连接个体与大型系统的有意义渠道 [12]
第六次突破
腾讯研究院· 2025-09-25 16:33
人类智能进化的五次突破 - 第一次突破是转向 通过区分外界刺激的好坏进行导航 两侧对称身体结构将导航决策简化为二元转向选择 多巴胺和血清素等神经调质使持续状态能够更有效重新定位 出现早期情感模板包括快乐 痛苦 满足和压力 [2] - 第二次突破是强化 通过学习重复历史上带来正面价值的行为并抑制负面价值行为 无模型强化学习带来从缺失中学习 时间感知 好奇心 恐惧 兴奋 失望和宽慰等智力和情感特征 [3] - 第三次突破是模拟 在精神上模拟刺激和行为 新皮质使动物能够在内部模拟现实 通过想象向基底神经节展示应该做什么 发展出规划能力包括情景记忆和反事实学习 运动皮质进化赋予精细运动技能 [4] - 第四次突破是心智化 建立自己的思维模型 新皮质中新区域建立对旧哺乳动物新皮质区域的模型 能够模拟自己具有不同意图和认知的心理状态 预测未来需求 理解他人意图和认知 通过观察学习技能 [5] - 第五次突破是语言 通过命名和语法将内部模拟联系在一起 使得思想能够跨代积累 每一次突破都建立在先前构建的基础上 转向功能因神经元进化而可能 强化学习建立在效价神经元之上 模拟因基底神经节试错学习机制存在 心智化因模拟先出现 语言因心智化先出现 [5] 人类历史的两大篇章 - 第一篇是进化篇章 讲述现代人类从宇宙原始无生命物质演化而来 跨越数十亿年漫长岁月 [6] - 第二篇是文化篇章 描述10万年前社会性现代人类从生物学大体相同但文化蒙昧的祖先中崛起发展 所有文明 技术 战争 发现 戏剧 神话 英雄与反派在这段相对较短时间内上演 [6] - 10万年前智人个体脑海中承载宇宙最令人叹为观止奇迹之一 历经10多亿年进化之路铸就辉煌成果 稳坐食物链之巅 手握长矛 身披手工编织衣物 驯服火焰 征服无数巨兽 展现众多智慧成就 [6] 进化历程与未来展望 - 无数事件汇聚迎来这一刻 从热液喷口第一个冒泡细胞到单细胞生物首次捕食之战 多细胞生物诞生 真菌与动物分化 祖先珊瑚中首个神经元和反射出现 古老两侧对称动物首个具有效价和情感大脑诞生 脊椎动物崛起 对时间 空间 模式和预测掌控 微小哺乳动物模拟能力 树栖灵长类构建政治体系和心智化 早期人类语言诞生 想法在数十亿人类大脑中孕育调整与毁灭 [7][8] - 进化仍在如火如荼展开 站在关于智能的故事起点而非终点 地球生命还有70亿年时间探索新生物智能形式 如果原始分子用45亿年演变成人类大脑 那么70亿年中智能能达到更高高度 宇宙扩张到无法形成新恒星需1万亿年 最后一个星系解体需千万亿年 宇宙千万亿年历程压缩成一年则今天处于第7分钟 [8] - 千万亿年后最后一个星系解体 宇宙开始缓慢无意义消逝过程 最终走向热寂 熵增是不可逆转趋势 DNA通过自我复制抵抗熵增 所有进化创新秉承持久存在精神 与熵增抗争精神 拒绝消逝于无形精神 思想是生命最新但不是最后创新 [9] 第六次突破与超级智能 - 第六次突破越来越可能是超级智能出现 实现智能载体从生物媒介到数字媒介转变 单一智能认知能力将实现天文级扩展 人类大脑认知能力受神经元处理速度 人体热量 大脑最大尺寸等因素严重限制 基于硅的人工智能可根据需要无限扩大处理能力 [9] - 随着人工智能自由复制和重新配置自身 个体性将失去明确界限 生物交配机制被新基于硅的机器训练和构建新智能实体机制取代 亲子关系获得新意义 进化被抛弃 智能不再被遗传变异和自然选择缓慢过程束缚 由更基本进化原则即最纯粹变异和选择原则驱动 [10] - 无论演化出何种智能策略 肯定被打上人类智能烙印 超级人工智能基础媒介摆脱大脑生物局限 但实体仍建立在之前五次突破基础上 因五次突破构成人类创造者智能基石 创造者必然在作品中留下自己印记 初始阶段超级智能被设计用来与人类互动 因此被赋予人类智能再现或某种程度镜像反映 [10] 人类目标与未来挑战 - 站在第六次突破悬崖边上 面临非常不科学但远比科学问题更重要的问题 人类目标应该是什么 这是关于价值观问题 过去选择会随时间推移不断产生影响 如何回答这个问题将会对无数时代产生深远影响 [11] - 可能成功跨越银河系 探索宇宙隐藏奥秘 构建新智慧生命 解开宇宙秘密 发现意识新特征 变得更富有同情心 参与难以想象冒险 也可能失败 进化过程中留下骄傲 仇恨 恐惧和部落主义包袱可能让人类分崩离析 可能像其他悲剧收场进化阶段只是历史长河中匆匆过客 [11] - 人类灭绝数百万年后地球某个物种可能再次尝试攀登进化之山 可能发现人类化石猜测曾经生活状态 书写关于大脑的书 更可悲是人类可能因破坏地球气候或发动核战争亲手终结持续40亿年的地球生命实验 [11] - 有必要回首10亿年漫长历程探寻大脑诞生奥秘 随着获得如神一般创造能力 应从无意识进化过程汲取智慧 越深入理解自己心智就越能够按照形象创造出人工心智 对心智形成过程理解越透彻就越能够明智选择哪些智能特征需要摒弃 保留或改进 [12] - 是这一伟大转变中坚力量 转变历经140亿年漫长岁月 无论是否愿意宇宙已将接力棒交到手中 [12]
腾讯研究院AI速递 20250925
腾讯研究院· 2025-09-25 00:01
AI工具与平台更新 - 谷歌发布Nano Banana支持的AI画板工具Mixboard 支持自然语言编辑图板和批量编辑图片等功能 已开启公测 [1] - 阿里发布通义万相Wan2.5 Preview系列模型 新增音画同步视频生成能力 支持24帧/秒1080P高清视频 [2] - 快手发布可灵2.5 Turbo视频生成模型 在体育场景生成效果有突破性提升 高品质模式下生成5秒视频成本降低近30% [3] - 秘塔AI推出Agentic Search模式 可自主完成5-15步工具调用 内置20余种工具并具备多模态能力 [4] - AI音乐平台Suno发布V5模型 提供录音室级别音质 实现从灵感demo到可发行歌曲的质量跨越 [5][6] 游戏与硬件创新 - 小岛秀夫与Niantic Spatial合作开发基于AR眼镜的多人地理位置游戏 类似现实中的《死亡搁浅》但目前尚未公布发布日期 [7] - 宇树科技创始人指出通用机器人面临三大技术瓶颈:线缆问题占故障60-70%、终端AI芯片功耗需控制在100瓦以内及技术路线差异大 [8] 行业战略与投资趋势 - Google Cloud报告指出AI创业者应以动作快和创新为核心竞争力 应用公司不需自研模型而应专注于业务价值 [9] - 英伟达投资英特尔50亿美元将重塑PC和数据中心市场 AI算力支出将从3600亿美元增至约5000亿美元 华为成为英伟达在非美国市场主要竞争对手 [10] - Sam Altman提出创建每周产出一吉瓦AI基础设施的工厂 认为10吉瓦算力或能治愈癌症并为每个学生提供个性化辅导 [12]