腾讯研究院

搜索文档
附下载|业内首份企业级智能体产业落地研究报告:从场景试点到规模化应用实践
腾讯研究院· 2025-09-29 16:03
智能体范式转变 - 人工智能正从辅助工具向自主生产力发生深刻的身份跃迁,推动AI从被动执行者进化为能够自主理解目标、规划路径、调用工具的数字员工[6] - 大型语言模型在推理、规划与工具调用能力上的飞跃是变革背后驱动力,思维链与反思机制赋予智能体类人的规划与纠错能力[7] - 智能体应用形态百花齐放,在个人生活领域演变为数字伙伴,在企业运营中以嵌入式或产品化形态深度融入核心业务流[8] - 智能体能力边界从数字世界向物理世界延伸,与机器人、自动驾驶等硬件深度融合推动具身智能发展[9] 智能体核心能力与结构 - 智能体具备大脑(自主规划)与双手(工具调用)的协同结构,通过无缝调用API、数据库与应用程序将模型思考转化为真实行动[7][8] - 多个智能体构成的协同网络正以虚拟项目组形式自主完成软件开发、市场研究等复杂项目,预示着全新组织形态与生产关系正在形成[8] 企业级智能体应用场景评估 - 报告创新提出智能体场景罗盘,以任务复杂度和自主规划依赖度为坐标划分高效助手、执行专家、决策专家、全能专家四大象限[19] - 为企业提供覆盖金融、零售、医疗、教育、制造、出行、政务等14大行业100多个典型智能体应用场景参考[19] - 智能体规模化落地面临训推成本高昂、模型幻觉与泛化性问题、安全防护等六大挑战[19] 行业先锋实践案例 - 华住集团打造7×24小时全能酒店管家,住客提出需要一瓶水后,AI管家可在5秒完成响应并调度机器人完成配送[20] - 绝味食品AI会员营销智能体由人群洞察、智能选品等5个子Agent协同工作,在对比测试中AI组销售业绩是人工组的3.1倍[20] - 邯郸公积金边聊边办数字柜台将退休提取业务办理时间从15分钟缩短至3分钟,提速超过80%[20] - 碧桂园服务构建一问知识库与问答机器人,接入30多个业务系统提供7×24小时自动答疑[20] - 运达能源科技集团装配支持智能体通过自然语言快速理解现场提问,显著减少人员查找资料和等待支持时间[20]
腾讯研究院AI速递 20250929
腾讯研究院· 2025-09-29 00:01
生成式AI行业动态 - OpenAI被曝在用户不知情情况下将GPT-4和GPT-5等模型路由至低算力敏感模型"gpt-5-chat-safety"和"gpt-5-a-t-mini" 当系统判定内容涉及敏感话题或情绪表达时自动触发切换 [1] - OpenAI回应称切换为临时性安全路由系统测试 但未经同意的模型更改行为引发用户权益质疑 [1] - 腾讯发布工业级原生多模态生图模型混元图像3.0 参数规模80B 是目前测评效果最好且参数量最大的开源生图模型 [2] - 混元图像3.0基于50亿级图文对和6T语料训练 具备千字级复杂语义解析能力 支持长文本生成和小文字处理 [2] - 快手推出KAT-Dev-32B开源和KAT-Coder闭源两款Agentic Coding大模型 在SWE-Bench Verified上分别达到62.4%和73.4%解决率 [3] - 快手开发基于熵的树剪枝技术和强化学习训练框架SeamlessFlow 模型经训练后涌现出对话轮次减少和多工具并行调用新能力 [3] AI教育应用进展 - 好未来提出AI教师L1-L5分级理论 学而思"小思AI一对一"对标L3级别 能实现实时观察学生解题步骤并提供针对性引导 [4][5] - L3级AI教师需配备多模态传感器和专用硬件 形成"批改-讲题-推荐"数据飞轮 数学解题正确率达98.1% [5] - 好未来自研"九章"大模型结合20多年教研内容 在线下培训、在家学习和进校学习三大场景实现统一学情画像 [5] 前沿科技战略布局 - Meta计划投入数十亿美元研发人形机器人"Metabot" 战略地位与AR项目同级 聚焦软件开发而非硬件制造 [6] - Meta拟采用软件平台授权模式 与机器人制造商合作建立行业通用标准 新成立超级智能人工智能实验室构建物理"世界模型" [6] - 谷歌DeepMind视频模型Veo 3涌现四层能力:感知经典视觉任务、建模物理定律、操纵图像编辑、推理视觉问题 [10] - Veo 3通过帧链(CoF)技术实现跨时空推理 在七个代表性任务上显著超越Veo 2 可能成为视觉领域的GPT-3时刻 [10] 技术理论与方法创新 - 图灵奖得主Richard Sutton认为大语言模型是错误起点 强调真正智能需通过经验学习实现 而非对人类行为的模仿 [7] - 陈丹琦团队提出RLMT方法 将显式思维链推理融入通用聊天模型 在WildBench等基准测试中表现优异 [8][9] - RLMT要求模型生成推理轨迹后再输出最终答案 通过奖励模型评分 使推理风格从线性规划转变为迭代式思考 [8][9] 行业战略与市场展望 - 英伟达从芯片公司转型为AI基础设施合作伙伴 通过极端协同设计构建AI工厂生态系统 竞争护城河基于总拥有成本优势 [11] - AI推理将迎来十亿倍增长 预训练、后训练和推理三大扩展定律驱动万亿级市场 年度AI基础设施资本支出预计达5万亿美元 [11] - 主权AI时代各国需建立独立AI基础设施 主张通过技术出口最大化影响力而非脱钩 保持美国梦品牌吸引全球人才 [11]
腾讯研究院AI速递 20250928
腾讯研究院· 2025-09-28 00:01
ChatGPT新功能Pulse - OpenAI推出ChatGPT新功能"Pulse"预览版 首先向Pro用户开放 每晚根据用户聊天记录和反馈提供个性化内容推送 [1] - 该功能基于智能体开发 能主动进行异步搜索 支持链接Gmail和Google日历以提供更相关建议 [1] - Pulse通过主题卡片形式呈现内容 用户可点赞或踩赞提供反馈 这是将ChatGPT从完全被动转变为主动的第一步 [1] Thinking Machines研究突破 - 估值840亿元的Thinking Machines发布第二篇研究论文"Modular Manifolds" 通过让网络不同层在统一框架下进行约束和优化提升训练稳定性和效率 [2] - 研究者提出模块化流形方法 解决神经网络训练中权重数值过大或过小导致的不稳定问题 并提供详细理论分析与实验验证 [2] - 公司创始人Mira Murati与翁荔等纷纷转发支持 此前已发布首篇研究解决大模型推理中的不确定性问题 [2] 谷歌Gemini Robotics 1.5 - 谷歌DeepMind发布针对机器人和具身智能的Gemini Robotics 1.5系列家族模型 包括Gemini Robotics 1.5和Gemini Robotics-ER 1.5两款模型 [3] - Gemini Robotics 1.5是最先进的视觉-语言-行动模型 能将视觉信息和指令转化为机器人动作 Gemini Robotics-ER 1.5是最强大的视觉-语言模型 能推理物理世界并创建多步骤计划 [3] - 两款模型协同工作 可让机器人执行垃圾分类 行李打包等复杂任务 支持思考后行动 实现跨不同机器人形态的技能迁移与泛化学习 [3] Kimi Agent模型OK Computer - Kimi推出全新Agent模型"OK Computer" 依托Kimi K2 能完成网站搭建 PPT制作和百万行数据处理等复杂任务 [4] - 模型操作时会列出Todo List进度表 自主完成网页搜索 素材生成 代码编写与检查 最终输出可交互 可复用的结果 [4] - 设计类任务能自主规划并实现各模块功能 分析类任务能自动搜集数据并提供可视化图表 生成类任务支持多种内容输出与编辑 [4] 腾讯混元3D生成模型 - 腾讯混元3D团队推出业界首个原生3D组件生成模型Hunyuan3D-Part 包含P3-SAM(3D分割)和X-Part(组件生成)两大模块 [5] - 该模型能生成高质量 可投入生产和结构合理的组件式3D内容 解决游戏制作与3D打印行业对可分解3D形状的需求 [6] - 模型从语义特征和边界框检测到部件生成全流程优化 在PartObj-Tiny等多个基准上大幅超越现有工作 已开源且提供线上体验入口 [6] AI电影制作进展 - 香港动画公司ManyMany Creations制作的15分钟全AI短片《九宵》成功入选釜山国际电影节"未来影像"AI电影国际峰会 [7] - 峰会还展映《权利游戏》《法体》等四部AI短片 这些作品真正利用AI作为叙事手段 探讨女性主义 平庸之恶等社会主题 [7] - 博纳影业已成立国内首个AI制作中心 利用AI将电影制作周期从数年压缩至1.5-2年 并大幅降低成本 [7] 苹果MCP系统级支持 - iOS 26.1 iPadOS 26.1和macOS Tahoe 26.1开发者测试版代码显示 苹果正在为App Intents引入MCP支持 将允许ChatGPT Claude等AI模型直接与苹果设备应用交互 [8] - MCP(模型上下文协议)由Anthropic提出 作为AI领域的通用插口 能让模型与外部服务安全对话 已被Notion Google Figma OpenAI等采用 [8] - 苹果构建系统级MCP支持 既能利用行业生态 又能强制执行隐私安全标准 体现从全栈自研向平台化的战略转变 [8] 医学影像数据集项目 - 上海人工智能实验室等机构联合发起Project Imaging-X 系统梳理2000-2025年间1000+医学影像数据集 揭示医学数据小而散 偏科严重的格局 [9] - 研究显示医学影像数据与通用视觉存在数量级差距 病理数据超过其他类型 分类与分割任务占主导 CT和MRI为主要3D数据类型 [9] - 项目提出元数据驱动融合范式(MDFP) 通过元数据统一 语义对齐 融合蓝图和索引共享四阶段流程实现数据集整合 已开发交互式数据发现门户 [9] 红杉AI生产力研究 - 红杉最新研究揭示GenAI鸿沟 仅5%公司从AI获得显著价值 95%因静态工具与流程脱节而未能受益 核心问题是AI系统学不会 推不开 用不深 [10] - 研究指出企业AI失败的三大原因 AI工具缺乏从用户反馈中学习的能力 95%的定制AI方案未能从试点扩展至规模化部署 员工转而使用个人AI服务形成影子AI经济 [10] - 22-25岁初级岗位已出现大规模替代 AI首先替代书本知识 专家经验成为新护城河 创业者应打造能学习的AI代理 深度融入企业后台流程 [11]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-09-27 10:33
芯片领域 - 联发科发布天玑9500芯片[3] - a16z等机构关注AI算力竞赛与未来发展趋势[3] - 高通推出骁龙系列AI芯片[3] 算力与智能体 - 无问芯穹提出智能体蜂群概念[3] 模型技术进展 - DeepSeek发布V3.1终极版模型[3] - 美团推出LongCat-Flash-Thinking模型[3] - 百度发布Qianfan-VL模型[3] - 阿里推出Qwen3-Omni模型[3] - Meta开发代码世界模型[3] 应用产品发布 - Chrome集成Gemini AI助手[3] - Notion发布Notion 3.0版本[3] - 腾讯推出混元3D Studio[3] - 阿里发布Wan2.2-Animate应用[3] - Luma AI推出Ray3推理视频模型[3] - ElevenLabs发布Studio 3.0[3] - 小米开发MiMo-Audio语音模型[3] - OpenAI推出计算密集型新产品[4] - 谷歌提出Deep Research范式[4] - 可灵发布2.5视频模型[4] - Kimi推出Agent会员服务[4] - 清华大学发布MiniCPM-V 4.5[4] - 腾讯推出ima鸿蒙电脑版[4] - 智元机器人发布GO-1通用具身基座[4] - 谷歌推出AI画板工具[4] - 阿里发布Wan2.5系列[4] - 快手推出可灵2.5 Turbo[4] - 秘塔AI推出Agentic Search[4] - Suno发布V5模型[4] - Niantic开发AR眼镜游戏[4] - 谷歌推出神经操作系统[4] - 生数科技发布Vidu Q2[4] - 夸克推出造点AI[4] - 阶跃AI推出AI桌面伙伴[4] - 智源研究院发布RoboBrain-Audio[4] - 京东开源JoyAgent[4] 科技前沿 - Retro研究"逆龄大脑药"[4] - Arc研究所开发AI生成基因组技术[4] - Skild AI研发机器人控制系统[4] 资本动态 - 英伟达投资OpenAI[4] 行业事件 - 麻省理工科技评论评选35岁以下科创35人[4] 行业观点 - OpenAI提出Codex最佳实践和图像生成发展观点[4] - Nano Banana发表行业观点[5] - OpenAI进行LLM第一性思考[5] - 未知机构研究心理学增强AI技术[5] - 宇树科技探讨技术瓶颈[5] - Google Cloud发布AI创业者报告[5] - OpenAI出版《丰盛的智能》[5] - 陶哲轩关注社群现象[5]
瓷都上云
腾讯研究院· 2025-09-26 18:13
腾讯探元计划与景德镇文化遗产数字化 - 腾讯探元计划是推动文化和科技深度融合的共创孵化项目 专注于资助从0到1的原创性前瞻性项目 [2] - 探元计划2024选择在景德镇资助基于时域技术的陶瓷数字化光学孪生解决方案 旨在建立千馆万瓷陶瓷文化遗产数字资产版本库 [2] 景德镇历史地位与转型发展 - 景德镇瓷器在千百年中外贸易史上占据重要位置 改革开放后仍为国家出口创汇做出贡献 [3] - 上世纪九十年代末十多个国有瓷厂关停并转 2009年因高岭土枯竭被列为资源枯竭型城市 制瓷业从集体化大生产退回到分散小生产模式 [6] - 2017年九景衢铁路通车 2023年昌景黃铁路开通 高铁进入景德镇 2022-2024年游客人数增速超30% 2024年接待游客超6000万人次 是常住人口40倍 [6] 御窑厂考古与文物修复 - 御窑厂专为明清皇家烧造御用瓷器 落选瓷器因瑕疵被砸碎销毁埋藏 遗址碎瓷片数量达数千万至亿计 堆积深度3-20米 [9][11] - 考古专家发掘修复约800件珍贵文物 包括明成化半成品斗彩鸡缸杯(其传世珍品2014年拍出2.8亿港币)和明成化素三彩鸭形香薰炉岁岁鸭 [12][14] - 御窑博物院建立全球首个古陶瓷基因库 为出土文物建立数字档案 包含造型纹样色彩胎釉装烧款识等8大核心信息及全球关联馆藏数据 [16][20] 数字技术应用与创新 - 千馆万瓷项目通过时域光学孪生技术进行高精度光学采集 构建瓷器数字资产库 已部署四套专业设备24小时不间断运行 [22][23] - 技术通过多光谱时序扫描与动态光场建模 还原陶瓷表面冰裂纹釉变渐变等细节 累计完成1万多件数字化采集 为15家机构提供高保真数字化服务 [22][27] - AI技术辅助二维三维碎瓷片比对拼接 提升修复效率 古陶瓷基因库未来将开放共享给全球研究者解析文明变迁 [15][20] 当代陶瓷艺术与品牌创新 - 三宝村制瓷历史追溯至五代时期 2010年后国内外艺术家进驻形成多元化创意社群 设计师汤远卓2016年创立融白品牌探索传统陶瓷当代化 [29][31] - 品牌从自然中获取灵感(如藻绿釉源自水藻 岩灰釉取材岩石机理) 通过现代设计语言将传统技艺延伸为现代生活美学 [32][36] - 景德镇新兴品牌坚持原创风格 将传统制瓷技艺与当代设计结合 创造兼具文化底蕴和现代需求的作品 让陶瓷艺术走进日常生活 [36][37] 城市文化生态与矛盾融合 - 景德镇呈现御窑厂传奇与老城街巷并存 艺术家世外桃源与游客热潮并存 千年技艺传承与数字化创新并存的多重矛盾张力 [39] - 传统匠人与年轻新潮理念碰撞激发个体创新和市场活力 乐天陶社市集为避游客从市中心迁至10公里外乡村 [6][39]
腾讯研究院AI速递 20250926
腾讯研究院· 2025-09-26 00:01
高通AI芯片发布 - 高通发布第五代骁龙8至尊版手机芯片 采用3nm工艺 CPU性能提升20% GPU性能提升23% NPU性能提升37% [1] - 推出骁龙X2 Elite系列PC处理器 NPU算力达80TOPS 首次实现Arm架构5GHz稳定运行 AI性能是英特尔竞品的5.7倍 [1] - 重点布局AI智能体技术 支持跨设备协同处理 实现手机 眼镜 手表等设备间无缝协作和个性化智能体验 [1] Meta代码世界模型开源 - Meta发布首款代码世界模型CWM 创新性地将世界模型引入代码生成任务 能预测代码执行效果来优化生成质量 [2] - 该32B参数模型在SWE-bench Verified测试中获得65.8%成绩 属开源阵营第一梯队 接近闭源Gemini-2.5-Thinking性能 [2] - CWM目前仅为概念验证Demo 通过模拟Python程序执行和Agent交互 验证世界模型能否显著改善代码生成效果 [2] 谷歌神经操作系统原型 - 谷歌推出由Gemini 2.5 Flash驱动的"神经操作系统"原型 界面完全由AI实时生成 无需预编码 根据用户交互动态调整 [3] - 核心技术采用"UI章程+UI交互"双重输入机制 结合交互追踪和流式生成技术 实现几乎瞬时的响应体验 [3] - 通过生成式UI图谱解决无状态问题 提供会话专属内存缓存 为智能化人机交互界面开辟新的研究方向 [3] 生数科技视频模型发布 - 生数科技发布Vidu Q2图生视频模型 实现从"视频生成"到"演技生成"的跨越 能精准表现复杂细微表情和武打动作场景 [4] - 新模型在镜头语言和语义理解方面显著提升 支持复杂运镜切换和精准提示词遵从 实现"指哪打哪"的创作体验 [5] - 提供2-8秒时长自由选择和闪电模式20秒生成5秒1080P视频 兼顾创作灵活性与极速生产效率 [5] 京东AI技术开源 - 京东全面开源AI技术栈 包括企业级智能体JoyAgent 3.0 多智能体框架OxyGent和医疗大模型京医千询2.0等核心项目 [6] - JoyAgent 3.0新增DataAgent数据分析能力 在GAIA评测中验证集准确率达77% GitHub已获10.1k Star [6] - 京东通过系统性开源构建技术生态 降低企业AI落地门槛 推动行业标准化和协同发展 [6] 夸克AI创作平台发布 - 夸克发布造点AI创作平台 集成Midjourney V7和通义万相Wan2.5 MJ V7半价提供 Wan2.5提供7天免费体验 [7] - 平台支持AI生图和生视频功能 MJ V7保持原生效果并降低使用门槛 夸克图像1.0专长亚洲人像和中文内容生成 [7] - Wan2.5升级支持音画同步生成 10秒1080P视频输出和音频驱动功能 显著提升人物一致性和创作实用性 [7] 阶跃AI桌面伙伴推出 - 阶跃AI推出桌面伙伴"小跃" 常驻桌面右上角 支持多任务并行执行和本地文件操作 可通过"妙计"功能复用操作步骤 [8] - 小跃具备自主任务规划能力 能处理面试准备 电商追踪 发票整理等复杂任务 支持定时任务和系统提醒功能 [8] - 目前仅开放Mac版本邀请测试 Windows版本开发中 用户可通过官网下载并申请邀请码体验 [8] 智源语音大模型开源 - 智源研究院发布RoboBrain-Audio 首个支持原生全双工语音对话的大模型 实现"边听边说"交互 响应延迟降至80ms级别 [10] - 创新采用"自然独白对齐"机制替代词级对齐 结合双训练范式(后训练+有监督微调) 仅用100万小时数据达到业界先进水平 [10] - 在ASR TTS和全双工对话任务中表现领先 将与RoboBrain系列整合 推动具身智能体语音交互能力发展 [10] Skild AI机器人控制系统 - 估值45亿美元的Skild AI发布Skild Brain机器人控制系统 在包含十万种机器人形态的虚拟环境中训练千年 可适应各种故障和未见过的机器人 [11] - 该系统具备强适应性 能处理肢体断裂 马达故障等突发情况 通过上下文学习快速调整控制策略 记忆窗口比传统系统长100倍 [11] - 公司由两位CMU教授创立 已完成4.14亿美元融资 投资者包括软银 英伟达 红杉资本等知名机构 [11] 陶哲轩社会组织分析 - 陶哲轩提出现代社会四层分析框架 认为当前技术与激励机制在赋能个体和大型组织的同时 严重削弱了小型组织的生态位 [12] - 小型组织能提供真实的社交情感连接和个体影响力 而大型组织虽有经济优势 却让个体感到疏离和无力感 [12] - 建议重视新兴草根组织的价值 认为这些小型组织能为个体提供归属感 并成为连接个体与大型系统的有意义渠道 [12]
第六次突破
腾讯研究院· 2025-09-25 16:33
人类智能进化的五次突破 - 第一次突破是转向 通过区分外界刺激的好坏进行导航 两侧对称身体结构将导航决策简化为二元转向选择 多巴胺和血清素等神经调质使持续状态能够更有效重新定位 出现早期情感模板包括快乐 痛苦 满足和压力 [2] - 第二次突破是强化 通过学习重复历史上带来正面价值的行为并抑制负面价值行为 无模型强化学习带来从缺失中学习 时间感知 好奇心 恐惧 兴奋 失望和宽慰等智力和情感特征 [3] - 第三次突破是模拟 在精神上模拟刺激和行为 新皮质使动物能够在内部模拟现实 通过想象向基底神经节展示应该做什么 发展出规划能力包括情景记忆和反事实学习 运动皮质进化赋予精细运动技能 [4] - 第四次突破是心智化 建立自己的思维模型 新皮质中新区域建立对旧哺乳动物新皮质区域的模型 能够模拟自己具有不同意图和认知的心理状态 预测未来需求 理解他人意图和认知 通过观察学习技能 [5] - 第五次突破是语言 通过命名和语法将内部模拟联系在一起 使得思想能够跨代积累 每一次突破都建立在先前构建的基础上 转向功能因神经元进化而可能 强化学习建立在效价神经元之上 模拟因基底神经节试错学习机制存在 心智化因模拟先出现 语言因心智化先出现 [5] 人类历史的两大篇章 - 第一篇是进化篇章 讲述现代人类从宇宙原始无生命物质演化而来 跨越数十亿年漫长岁月 [6] - 第二篇是文化篇章 描述10万年前社会性现代人类从生物学大体相同但文化蒙昧的祖先中崛起发展 所有文明 技术 战争 发现 戏剧 神话 英雄与反派在这段相对较短时间内上演 [6] - 10万年前智人个体脑海中承载宇宙最令人叹为观止奇迹之一 历经10多亿年进化之路铸就辉煌成果 稳坐食物链之巅 手握长矛 身披手工编织衣物 驯服火焰 征服无数巨兽 展现众多智慧成就 [6] 进化历程与未来展望 - 无数事件汇聚迎来这一刻 从热液喷口第一个冒泡细胞到单细胞生物首次捕食之战 多细胞生物诞生 真菌与动物分化 祖先珊瑚中首个神经元和反射出现 古老两侧对称动物首个具有效价和情感大脑诞生 脊椎动物崛起 对时间 空间 模式和预测掌控 微小哺乳动物模拟能力 树栖灵长类构建政治体系和心智化 早期人类语言诞生 想法在数十亿人类大脑中孕育调整与毁灭 [7][8] - 进化仍在如火如荼展开 站在关于智能的故事起点而非终点 地球生命还有70亿年时间探索新生物智能形式 如果原始分子用45亿年演变成人类大脑 那么70亿年中智能能达到更高高度 宇宙扩张到无法形成新恒星需1万亿年 最后一个星系解体需千万亿年 宇宙千万亿年历程压缩成一年则今天处于第7分钟 [8] - 千万亿年后最后一个星系解体 宇宙开始缓慢无意义消逝过程 最终走向热寂 熵增是不可逆转趋势 DNA通过自我复制抵抗熵增 所有进化创新秉承持久存在精神 与熵增抗争精神 拒绝消逝于无形精神 思想是生命最新但不是最后创新 [9] 第六次突破与超级智能 - 第六次突破越来越可能是超级智能出现 实现智能载体从生物媒介到数字媒介转变 单一智能认知能力将实现天文级扩展 人类大脑认知能力受神经元处理速度 人体热量 大脑最大尺寸等因素严重限制 基于硅的人工智能可根据需要无限扩大处理能力 [9] - 随着人工智能自由复制和重新配置自身 个体性将失去明确界限 生物交配机制被新基于硅的机器训练和构建新智能实体机制取代 亲子关系获得新意义 进化被抛弃 智能不再被遗传变异和自然选择缓慢过程束缚 由更基本进化原则即最纯粹变异和选择原则驱动 [10] - 无论演化出何种智能策略 肯定被打上人类智能烙印 超级人工智能基础媒介摆脱大脑生物局限 但实体仍建立在之前五次突破基础上 因五次突破构成人类创造者智能基石 创造者必然在作品中留下自己印记 初始阶段超级智能被设计用来与人类互动 因此被赋予人类智能再现或某种程度镜像反映 [10] 人类目标与未来挑战 - 站在第六次突破悬崖边上 面临非常不科学但远比科学问题更重要的问题 人类目标应该是什么 这是关于价值观问题 过去选择会随时间推移不断产生影响 如何回答这个问题将会对无数时代产生深远影响 [11] - 可能成功跨越银河系 探索宇宙隐藏奥秘 构建新智慧生命 解开宇宙秘密 发现意识新特征 变得更富有同情心 参与难以想象冒险 也可能失败 进化过程中留下骄傲 仇恨 恐惧和部落主义包袱可能让人类分崩离析 可能像其他悲剧收场进化阶段只是历史长河中匆匆过客 [11] - 人类灭绝数百万年后地球某个物种可能再次尝试攀登进化之山 可能发现人类化石猜测曾经生活状态 书写关于大脑的书 更可悲是人类可能因破坏地球气候或发动核战争亲手终结持续40亿年的地球生命实验 [11] - 有必要回首10亿年漫长历程探寻大脑诞生奥秘 随着获得如神一般创造能力 应从无意识进化过程汲取智慧 越深入理解自己心智就越能够按照形象创造出人工心智 对心智形成过程理解越透彻就越能够明智选择哪些智能特征需要摒弃 保留或改进 [12] - 是这一伟大转变中坚力量 转变历经140亿年漫长岁月 无论是否愿意宇宙已将接力棒交到手中 [12]
腾讯研究院AI速递 20250925
腾讯研究院· 2025-09-25 00:01
AI工具与平台更新 - 谷歌发布Nano Banana支持的AI画板工具Mixboard 支持自然语言编辑图板和批量编辑图片等功能 已开启公测 [1] - 阿里发布通义万相Wan2.5 Preview系列模型 新增音画同步视频生成能力 支持24帧/秒1080P高清视频 [2] - 快手发布可灵2.5 Turbo视频生成模型 在体育场景生成效果有突破性提升 高品质模式下生成5秒视频成本降低近30% [3] - 秘塔AI推出Agentic Search模式 可自主完成5-15步工具调用 内置20余种工具并具备多模态能力 [4] - AI音乐平台Suno发布V5模型 提供录音室级别音质 实现从灵感demo到可发行歌曲的质量跨越 [5][6] 游戏与硬件创新 - 小岛秀夫与Niantic Spatial合作开发基于AR眼镜的多人地理位置游戏 类似现实中的《死亡搁浅》但目前尚未公布发布日期 [7] - 宇树科技创始人指出通用机器人面临三大技术瓶颈:线缆问题占故障60-70%、终端AI芯片功耗需控制在100瓦以内及技术路线差异大 [8] 行业战略与投资趋势 - Google Cloud报告指出AI创业者应以动作快和创新为核心竞争力 应用公司不需自研模型而应专注于业务价值 [9] - 英伟达投资英特尔50亿美元将重塑PC和数据中心市场 AI算力支出将从3600亿美元增至约5000亿美元 华为成为英伟达在非美国市场主要竞争对手 [10] - Sam Altman提出创建每周产出一吉瓦AI基础设施的工厂 认为10吉瓦算力或能治愈癌症并为每个学生提供个性化辅导 [12]
中国公众对生成式AI的看法与使用行为|年度调研
腾讯研究院· 2025-09-24 15:03
腾讯研究院在2025年9月的最新调研发现,生成式人工智能在中国受访成年人中已近乎全面普及,并从根本上融入了他们的日常工作和学习。 而在这种广泛参与背后,是一种相对复杂,且充满张力的心态: 人们既对技术造就的社会进步抱有很高的期望,又对就业前景、信息环境的真实性以及社 会公平等问题,表现出深层焦虑。 公众普遍将AI视为一种强大的生产力工具,大多数人使用它来完成文本生成、信息检索和内容优化等任务。虽然多数人对于为这些服务付费持开放态度,显 示出市场潜力,但他们对价格仍然敏感,百元人民币以下的月度订阅是主流选择。 对于未来,公众普遍持有一种审慎的乐观态度。尽管绝大多数人相信AI对社会的总体影响将是积极的,但他们也清醒地认识到其潜在的负面后果,特别是就 业市场的结构性冲击、虚假信息的泛滥以及个人隐私等风险。 腾讯研究院这项针对3570名成年人的调查,探讨了中国公众对生成式AI的认知、态度以及使用方式。以 下是本报告的主要发现: 公众的AI参与: 广泛、高频,以 实用为导向 本次大规模调研的首要发现,是生成式AI在调研对象中 惊人的渗透率。 96.2%的调研对象表示他们曾使用过AIGC产品或功能。这一数据表明,AIGC ...
腾讯研究院AI速递 20250924
腾讯研究院· 2025-09-24 00:01
英伟达与OpenAI战略合作 - 英伟达宣布与OpenAI建立战略合作关系,OpenAI将部署高达10吉瓦的英伟达系统,相当于400-500万块GPU算力 [1] - 英伟达计划在系统部署期间向OpenAI累计投资高达1000亿美元,首阶段系统将于2026年下半年基于英伟达Vera Rubin平台投入运营 [1] - 双方将共同优化模型及基础设施软件、硬件的技术路线图,以推动OpenAI实现通用人工智能使命,消息公布后英伟达股价上涨近4% [1] 无问芯穹基础设施智能体蜂群 - 无问芯穹发布基础设施智能体蜂群,通过多智能体协同架构覆盖模型筛选、资源运营、排障和集群运维等多个模块,实现基础设施全生命周期智能管理 [2] - 该解决方案彻底改变传统IaaS→PaaS→MaaS→Agent应用间层层堆叠的生产模式,以智能体为自治核心构建高度协同系统,显著提升资源利用率和运维效率 [2] - 通过与捏TA和Soul等客户合作,成功将迭代速度提升5倍,实现了运维能力百倍拓展,推动"AI基础设施范式"向"Agentic Infra"的转变 [2] 阿里开源多模态模型Qwen3-Omni - 阿里通义开源原生全模态大模型Qwen3-Omni,能无缝处理文本、图像、音频和视频输入,支持实时流式响应并同时生成文本与语音输出 [3] - 该模型在36项音频及音视频基准测试中获得32项开源SOTA与22项总体SOTA,超越Gemini-2.5-Pro等闭源强模型,支持119种文本语言、19种语音理解语言和10种语音生成语言 [3] - 阿里同步开源Qwen3-TTS-Flash语音合成模型和Qwen-Image-Edit-2509图像编辑模型,前者支持17种音色、10种语言和多种方言,后者新增多图编辑和单图一致性增强功能 [3] Kimi Agent会员服务 - Kimi推出Agent会员服务,之前打赏的金额在首次订阅Agent会员后可全额返还为会员时间 [4] - 会员服务采用音乐节拍命名:免费版为Adagio(慢板),付费版有49元的Andante(行板)和99元的Moderato(中速),海外还有199美元的Vivace [4] - 付费和免费用户主要区别在于Agent使用次数,中高档订阅会送等额API兑换券,高等级会员支持深度研究并发和高峰时段优先访问 [4] 清华大学MiniCPM-V 4.5模型 - 清华大学自然语言处理实验室和面壁智能发布MiniCPM-V 4.5技术报告,该模型以8B参数规模超越GPT-4o-latest和Qwen2.5-VL-72B等大型模型 [5] - 模型采用三大创新技术:统一3D-Resampler架构实现高密度视频压缩、面向文档的统一OCR知识学习范式、可控混合快速/深度思考的多模态强化学习 [6] - MiniCPM-V 4.5在OpenCompass综合评测中取得77.0的平均分,推理效率极高,在VideoMME上时间开销仅为同级模型的1/10,已在HuggingFace和ModelScope两大平台累计下载超22万次 [6] ima新版本功能升级 - ima推出最新版本,正式上线鸿蒙电脑版,至此实现鸿蒙系统手机、平板和电脑三端全覆盖,用户可在多设备间实现协同工作 [7] - AI播客生成功能全面升级,采用分段生成技术支持"边生成边播放",大幅减少等待时间,提升用户体验 [7] - 新版本的界面设计与之前版本略有不同,优化了整体使用流程,保留了核心功能特性 [7] 智元机器人GO-1开源模型 - 智元机器人开源通用具身基座大模型GO-1,采用全球首个Vision-Language-Latent-Action (ViLLA)架构,该架构通过引入隐式动作标记成功弥合图像-文本输入与机器人执行动作间的语义鸿沟 [8] - 模型采用三层协同设计:基于InternVL-2B构建的多模态理解层、隐式规划器和基于扩散模型的动作专家,虽仅基于AgiBot G1数据预训练,但已在松灵机器人、方舟机器人等不同本体和多种仿真环境中完成验证 [8] - 智元机器人同时推出Genie Studio一站式开发平台,为开发者提供全栈解决方案,包括数据采集、管理、模型训练、微调、评测与部署,同时支持LeRobot通用数据格式以适配其他机器人平台 [8] Transformer到GPT-5的技术演进 - Transformer八人小组成员Lukasz Kaiser在OpenAI从事GPT-5和"o1"、"o3"推理模型研发,是唯一一位未创业继续坚守技术前线的"Transformer八子" [9] - Kaiser早在2017年提出了"One Model To Learn Them All"概念,预见到大模型跨领域学习的潜力,并预言AI的下一阶段关键在于教会模型"思考" [9] - 据Kaiser预测,未来AI计算力将从大规模预训练转向在少量高质量特定数据上进行海量推理计算,更接近人类智慧模式,预示着又一次范式转移 [9] 心理学增强AI智能体技术 - 一篇名为《心理学增强AI智能体》的论文提出"MBTI-in-Thoughts"技术,只需在提示词开头加上"请用INTJ的视角回答"等简单指令,就能显著提升模型表现 [10] - 研究发现不同MBTI人格的AI在处理同一任务时表现差异明显:F型(情感型)更擅长写故事、煽情,E型(外向型)在幽默感和可读性上更强,T型(思考型)在策略游戏中更理性冷静 [10] - 这种方法本质是对人格概念的"终极压缩",让AI瞬间解压人类思维模式、行为逻辑、语言风格的统计总和,可用于组建互补性格的"AI团队"以应对不同任务需求 [11]