腾讯研究院 - 财报，业绩电话会，研报，新闻 - Reportify

腾讯研究院

搜索文档

虞晶怡教授：大模型的潜力在空间智能，但我们对此还远没有共识｜Al&Society百人百问

腾讯研究院· 2025-05-09 16:20

大模型技术发展 - 当前技术发展尚未遇到极限跨模态整合仍有巨大潜力未被挖掘如DALL-E 3结合语言模型与扩散模型已实现惊人图像生成效果 [10] - GPT-4o采用语言模型的Next-Token-Prediction方式展示出图像编辑和用户需求理解的突破性能力 [10] - Scaling law在多模态背景下讨论为时尚早当前重点在于深度挖掘语言模型能力并探索与其他模态结合的上限 [11] 空间智能演进 - 发展历程从数字孪生/仿真平台起步逐步扩展至VR/元宇宙光场技术提升沉浸体验质量 [12] - 神经网络技术如NeRF推动空间智能从数字复刻转向智能理解生成式AI进一步实现空间创造能力 [12] - 文生3D技术突破传统建模限制通过单张图片实时生成三维结构 CLAY项目获SIGGRAPH最佳论文提名 [14] 关键技术瓶颈 - 3D场景数据严重不足真实世界复杂物体交互数据尤其匮乏如家庭环境物品分布变化案例 [18] - 三维表达方式未统一 NeRF/SDF/Mesh参数化等方案各有优劣影响数据利用效率 [26] - 物理规则建模是核心难点需解决物体间动态关系模拟如堆叠物体操作中的连锁反应 [20] 行业应用前景 - 短期聚焦影视/游戏内容生成大幅降低元宇宙构建成本中长期成为具身智能基础模型 [42] - 低空经济是潜力场景无人机配送需厘米级空间精度相关研究年底将展示demo [45] - 养老机器人需突破翻身/洗澡等刚需功能 15年内有望成熟需解决负重与安全平衡 [49] 研究方法论创新 - 引入"行动者网络理论" 认为三维物体具有潜在行动力其变化会显著影响环境 [16] - 整体性方法强调感知-认知-行为协同如NLOS成像技术可推断物体背面几何形态 [36][37] - 合成数据与真实数据互补通过跨模态学习缓解3D数据不足如文本描述辅助推断物体关系 [19] 教育范式变革 - 编程课程将提前至高中阶段学生接受度与能力提升显著 AI课程将成为通识教育 [52] - 教学模式转向短课程快迭代美国quarter system显示课时压缩有助于内容更新 [8][53] - 教师需对接工业界痛点传统教材被教参取代持续学习能力成为核心要求 [53]

生成式人工智能

Artificial Intelligence

生成式人工智能

Artificial Intelligence

腾讯研究院AI速递 20250509

腾讯研究院· 2025-05-08 21:47

OpenAI宣布全新AI发展计划OpenAI for Countries - OpenAI推出"OpenAI for Countries"计划，旨在为全球各国提供类似美国"星际之门"的AI基础设施建设 [1] - 计划包含数据中心建设、定制化ChatGPT服务、AI安全措施升级和国家创业基金四大核心服务 [1] - 首阶段将在全球选择10个国家合作，推广"民主的AI"理念以巩固美国AI领导地位 [1] Figma发布2025年重磅升级 - Figma推出五大新功能：Draw绘图工具、Grid响应式布局、Buzz品牌资产引擎、Sites网站构建工具和Make原型生成器 [2] - 新功能覆盖从视觉设计到网站发布全流程，支持AI辅助创作和批量生产 [2] - 产品定位从设计原型工具升级为全链路设计平台，整合插画、界面、网站、资产和上线功能 [2] Mistral AI发布Medium 3模型 - Mistral AI发布Medium 3模型，性能对标GPT-4o和Claude 3.7 Sonnet，价格仅为Sonnet的1/8 [3] - 模型专为企业设计，支持混合部署，在编程及多语言场景表现优异 [3] - 同步推出企业级聊天机器人Le Chat Enterprise，支持跨应用集成和AI智能体构建 [3] 谷歌Gemini图像生成功能升级 - Gemini原生图像生成功能提升视觉质量和文本渲染准确度，支持实时编辑和元素融合 [4] - 每张图片定价0.039美元，生成速度快但在整体效果上或仍不及GPT-4o [4][5] - 新功能可与Gemini 2.5 Pro结合使用，支持将图片转换为代码表示的动态效果 [5] 微软宣布AI Agent支持新协议 - 微软Azure AI Foundry和Copilot Studio支持A2A和MCP协议，旨在打破智能体开发和通信壁垒 [6] - 已有超7万企业通过Azure AI Foundry开发智能体，4个月内超1万家组织采用Agent Service [6] - A2A协议支持智能体跨平台协作，MCP协议提供统一通信框架 [6] HeyGen发布Avatar IV模型 - Avatar IV模型仅需一张照片和语音/文字输入即可生成逼真的AI数字人视频 [7] - 采用基于扩散模型的音频驱动表情引擎，能根据语音节奏和情绪自动生成对应表情与动作 [7] - 付费用户可生成30秒视频，免费用户每月3次10秒视频额度 [7] DeepSeek致谢腾讯技术贡献 - DeepSeek的DeepEP网络通信框架引入腾讯TRMT技术后性能翻倍 [8] - 腾讯优化方案包括拓扑感知的多QP建链、基于IBGDA的多Channel负载均衡传输等 [8] - 优化后的DeepEP已开源，可帮助MoE架构大模型摆脱NCCL依赖 [8] OpenAI人事变动 - OpenAI任命Instacart CEO Fidji Simo为应用部门CEO，负责推动技术落地和商业化 [10] - OpenAI发展为三大核心业务：全球产品服务、基础设施建设和非营利组织 [10] - Sam Altman将专注于研究、计算和安全系统三大支柱 [10] UC伯克利开发VideoMimic系统 - VideoMimic系统让机器人通过观看视频就能学习人类动作，已让宇树G1掌握100多种动作 [11] - 系统不需动作捕捉设备，仅靠视频就能让机器人适应各种地形和完成复杂动作 [11] - 工作流程包括从视频重建人体运动、在仿真环境训练控制策略、部署到实体机器人三个步骤 [11] Meta AI战略布局 - Meta以Llama为核心布局AI，强调开源路线，聚焦广告优化、用户参与度提升等四大方向 [12] - Meta AI月活用户达10亿，认为AI在社交陪伴和内容创作方面潜力巨大 [12] - 将持续推进VR和AR差异化布局，认为AR眼镜是未来手机，VR是未来电视 [12]

Artificial Intelligence

Artificial Intelligence

胡泳：在“推荐就是一切”的时代

腾讯研究院· 2025-05-08 16:43

推荐系统行业分析行业现状与核心价值 - 推荐系统已成为数字经济核心驱动力，Netflix、Spotify、TikTok等平台通过个性化推荐重塑用户体验，Netflix界面设计完全围绕"一切皆为推荐"理念[3][7] - TikTok算法通过协同过滤和内容分析实现精准推送，视频推荐不受粉丝量影响，仅基于内容标签、用户行为等数据，使新人博主有机会快速崛起[7][8] - 行业领导者如英伟达CEO黄仁勋指出，推荐系统是当前最重要的AI应用，覆盖搜索、广告、电商、内容消费等核心场景[7] 技术指标与评价体系 - 推荐系统评价指标包括精准度、多样性、新颖性、惊喜性、可解释性及公平性，精准度衡量内容与用户兴趣匹配度，多样性避免推荐同质化[9] - TikTok算法因满足用户对新奇性需求获评《麻省理工科技评论》"全球十大突破性技术"，突破传统"从众效应"[8] - 热点偏差（popularity bias）问题显著，如YouTube倾向推荐大V内容，音乐平台偏好流行歌手，导致小众创作者曝光不足[12] 公平性挑战与解决方案 - 算法偏见体现在性别（LinkedIn职位推荐）、地域（电商价格差异）、文化（西方内容主导）等多维度，2012年起学术界持续关注此问题[10][11] - 2019年研究揭示热点偏差机制，流行内容垄断流量资源，解决方案包括加入公平性约束、提升多样性、定期检测算法偏见[12][13] - 2018年提出"负责任推荐"（FAccTRec）框架，强调消除系统性偏见、增强透明度（如YouTube允许标记"不感兴趣"）、建立问责机制[14][15] 企业实践与创新方向 - Netflix优化算法覆盖小众题材和多元文化内容，Spotify推出"Fresh Finds"扶持独立音乐人，LinkedIn减少性别偏见并提供推荐原因解释[17] - 推荐系统正向"自我发现引擎"演进，通过数据收集、算法创新和网络效应形成良性循环，用户行为反馈进一步优化推荐相关性[19][20] - 未来趋势包括赋能用户探索（如社交分享推荐内容）、增强自我认知（通过推荐内容反推用户兴趣图谱）、机器与人类协同进化[20][21]

负责任推荐（Responsible Recommendation

自我发现引擎

热点偏差（popularity bias）

负责任推荐（Responsible Recommendation

自我发现引擎

热点偏差（popularity bias）

活动 | 2025“文脉之光”中国国家版本馆文创设计大赛正式启动

腾讯研究院· 2025-05-08 16:43

大赛背景与核心定位 - 建设中国国家版本馆是党中央的重大决策，是文明大国建设的基础工程和标志性文化工程[1] - 中国国家版本馆担负赓续中华文脉、坚定文化自信、展示大国形象、推动文明对话的重要使命[1] - 大赛旨在让典籍中的文化密码"活"起来，推动文明"基因库"成为创新"孵化器"，为文化产业注入新动能[1] 组织机构与参与对象 - 主办单位为中国国家版本馆，执行单位为阅途文化集团有限公司及广东阅途文化传播有限公司[3] - 活动面向全社会广泛征集，高校艺术院系师生、独立设计师、创意设计团队或机构均可报名参赛[4] 活动内容与设计资源 - 设计灵感需来源于中国国家版本馆中央总馆的馆藏文化资源，涵盖中华古籍、甲骨简牍、革命文献、现代出版物等[6] - 参赛者可提炼场馆建筑美学（文兴楼、文华堂等）、典藏资源（卷轴、木版水印等）、展示资源（主题展览等）进行创意设计[6] - 设计手法、表现形式、材质等不限，作品需兼具艺术性、实用性与文化传播力[7] 活动流程与时间安排 - 报名投稿阶段自即日起至2025年7月31日，通过大赛官网在线提交作品[11] - 作品评审阶段为2025年8月，采用初评和终评，终评由专业评审80%加大众评审20%构成[12] - 获奖名单将于2025年8月发布，作品将优先用于中国国家版本馆中央总馆文创产品开发[13][14] 作品要求与提交规范 - 作品类型包括旅游纪念品、生活用品、家居用品、工艺品等实体创意产品[15] - 需提供1至6张设计图，JPG格式，A3比例，300dpi分辨率，单张图片文件大小20MB以内[16] - 需提交500字内设计理念说明，鼓励提供3分钟以内视频说明及作品实物，实物寄送截止日期为2025年7月31日[17][18] 评审标准与奖项设置 - 评审维度包括创意性（30%）、文化内涵（25%）、实用性（20%）、美观性（15%）、市场潜力（10%）[27] - 金奖1名奖金人民币10000元，银奖8名奖金人民币2000元，铜奖16名奖金人民币500元，另设优秀奖若干[28] - 金、银、铜奖作品可获得中国国家版本馆入馆收藏证书，奖项评选坚持质量优先，允许空缺[28][29]

文化传承与创新

数码周边等文创产品

文化传承与创新

数码周边等文创产品

腾讯研究院AI速递 20250508

腾讯研究院· 2025-05-07 23:55

生成式AI - Gemini 2 5 Pro在LMeana基准测试中全面领先，首次在文本、视觉、WebDev Arena三大领域超越Claude 3 7 [1] - 新版本强化编程能力，可将图片视频转化为交互式应用，VideoMME测试得分84 8% [1] - 开发者可通过Google AI Studio和Vertex AI使用更新版本，已上线Gemini App并支持Canvas功能 [1] ComfyUI功能升级 - 新增原生API节点功能，支持10+模型系列和62个新节点，可直接调用Veo2、Flux Ultra等付费模型 [2] - 完成品牌视觉更新，新Logo采用连接方块元素设计，融入90年代动漫与Y2K风格 [2] - 即将推出用户自定义API Key、工作流并行执行功能，并增强视频处理能力 [2] Kevin模型开源 - Cognition AI开源32B参数量的Kevin模型，基于QwQ-32B通过GRPO强化学习训练，生成CUDA内核性能超越o3和o4-mini [3] - 在KernelBench数据集上平均正确率达65%，解决89%的任务，测试中实现1 41倍加速比 [3] - 在二级任务上表现尤为突出，达到1 74倍加速，显著优于其他模型 [3] 学生免费计划 - Cursor Pro和Gemini Pro向学生免费开放一年完整专业版使用权限，可节省约2000元人民币 [4][5] - 此举旨在争夺未来用户市场，通过培养学生使用习惯提前布局市场份额 [4] - 申请渠道已开放，Gemini Pro将在2025年8月重新验证学生身份 [5] 腾讯元宝功能升级 - 推出对话分组功能，支持按主题创建文件夹和历史对话归类整理 [6] - 每个分组可设置独立提示词指令，定制专属语气风格和任务目标 [6] - 全平台上线文生图功能，支持混元和DeepSeek模型生成图片，增强图文一致性和画质 [7] AI科研应用 - Anthropic启动AI for Science计划，提供最高2万美元API积分支持生物系统、遗传数据、药物研发等领域研究 [8] - 开放所有Claude系列模型，重点推动AI在科学研究的突破性应用 [8] 机器人大模型 - 清华ISRLab与星动纪元联合开发AIGC机器人大模型VPP，获ICML2025 Spotlight并全部开源 [9][10] - 在Calvin ABC-D基准测试中实现4 33平均任务完成长度，超越先前技术41 5% [10] - 支持跨本体学习，可完成100+种灵巧操作任务，具有较强可解释性和调试能力 [10] AI社会影响 - 专家警告AI正在经济、文化和社交领域取代人类，可能导致人类失去对文明的控制 [11] - 建议采取跟踪AI影响、监管AI实验室、加强人类组织能力等措施应对 [11] 软件开发革新 - Bolt new从年收入70万美元快速增长至2000万美元ARR，主打基于浏览器的快速Web应用开发 [12] - 60-70%用户为非开发者，利用Web containers技术实现100毫秒内启动开发环境 [12] - 15人团队聚焦核心产品体验，通过免费试用实现病毒式增长 [12]

Artificial Intelligence

Artificial Intelligence

谷歌Gemini 2.5 Pro

Artificial Intelligence

Artificial Intelligence

谷歌Gemini 2.5 Pro

MCP不是万灵药

腾讯研究院· 2025-05-07 16:29

MCP的本质与核心价值 - MCP是一种开放技术协议，旨在标准化大型语言模型(LLM)与外部工具的交互方式，相当于AI世界的通用翻译官[5] - 解决AI工具调用两大痛点：接口碎片化(不同LLM使用不同指令格式)和开发低效(需为每个API编写定制代码)[6] - 采用通用JSON-RPC格式，实现一次学习即可与所有支持协议的工具交互[8] - 技术架构由三部分组成：MCP Host(执行环境)、MCP Client(通信枢纽)、MCP Server(服务终端)[11] MCP的工作原理与定位 - 类比现代企业通信系统：大模型如高管决策，Agent如执行秘书，MCP如标准化通信平台[13] - 不是Function Call的替代品，而是基于Function Call的工具箱，三者关系为"Function Call + Agent + MCP系统"[18][19] - 典型案例：用户(老板)通过大模型(办公室主任)下发指令，Agent(秘书)通过MCP系统(采购平台)调用工具(咖啡供应商)[21] - 仅提供统一工具接口标准，不参与决策/任务规划等智能层面工作[23] MCP的市场应用现状 - 本地客户端应用(如Claude Desktop、Cursor)受益最大，实现AI助手能力无限扩展[27] - 云端应用存在局限性：需预设工具集，难以实现动态发现功能[30] - 大型企业服务商面临额外适配成本，双链接机制导致工程复杂度[29] - 协议已优化：3月26日更新支持streamable HTTP transport，兼容无状态服务场景[32] 行业生态发展现状 - 市场呈现野蛮生长：三个月涌现数千个MCP工具，但80%存在严重问题或缺乏实用价值[34] - 缺乏评价体系导致工具选择低效，Agent需反复试错浪费资源[35] - 头部公司差异化布局：百度"心响"主攻C端移动场景，字节扣子空间聚焦生产力工具，阿里集成至支付宝生态[41] - 腾讯多线布局：发布AI开发套件、代码助手Craft，地图/云存储推出MCP SERVER[42] MCP的合理定位与发展方向 - 本质是工具插座标准，不应期待其解决智能系统的全部问题[39] - 需与Agent框架、大模型能力协同构建完整解决方案[40] - 未来可能演变为底层基础设施，结合A2A架构提升抽象层次[43] - 行业正经历技术炒作周期，市场自然选择后将形成精简有价值的工具生态[36]

Artificial Intelligence

MCP（Model Context Protocol）

Artificial Intelligence

MCP（Model Context Protocol）

腾讯研究院AI速递 20250507

腾讯研究院· 2025-05-06 18:46

生成式AI - OpenAI放弃完全营利性转型，将由非营利组织继续控制，同时营利性机构转为公益公司（PBC）[1] - 公司架构调整后取消利润上限制度，采用常规股权结构，非营利组织将成为PBC主要股东[1] - 承诺继续专注AGI发展造福人类使命，并计划开源部分高性能模型[1] - 英伟达发布Llama-Nemotron开源模型家族，包含8B到253B三种规格，支持动态切换推理模式，遵循开放商业许可[1] - LN-Ultra运用Puzzle框架和FFN融合技术优化部署效率，在推理性能和吞吐量上超越DeepSeek-R1[1] - 通过Qwen和DeepSeek-R1教师模型支持，结合多阶段训练和强化学习，全面提升模型推理与通用对话能力[1] Grok PDF功能 - Grok新增PDF渲染功能，支持一句话指令快速生成格式化PDF文档，免费和付费用户均可使用[2] - 功能基于LaTeX代码实现，支持学术论文、简历、菜单等多种文档类型，可通过对话优化或直接修改代码[2] - 相比ChatGPT依赖第三方库的PDF生成功能，Grok在排版质量和用户体验上有明显优势[2] Suno音乐生成 - V4.5版本支持长达8分钟的音乐生成，并新增punk rock、jazz house等细分风格，支持跨界混搭创作[3] - 人声表现力全面升级，实现从耳语到高音的动态音域，并优化了颤音、呼吸控制等专业级细节[3] - 提升了音乐描述识别能力，可精准理解抽象表达，并支持乐器分层、环境音效等音乐元素的精细解构[3] 英伟达语音识别 - 英伟达开源的Parakeet TDT 0.6B语音识别模型创下纪录，能在1秒内转录60分钟音频，词错误率仅6.05%[3] - 模型采用FastConformer-TDT架构，可一次性处理24分钟音频片段，支持标点符号预测和时间戳[3] - 以CC-BY-4.0许可开源，参数量600M，支持商用，但目前仅支持英语识别[3] ACE-Step音乐生成 - ACE-Step结合深度压缩自编码器、扩散模型和线性Transformer，在A100上20秒可生成4分钟音乐，比基线快15倍[5] - 支持19种语言音乐生成，覆盖流行、摇滚等多种风格，并具备人声克隆、歌词编辑等高级控制功能[5] - 采用Apache License 2.0开源协议，已开放训练代码和LoRA模块，将陆续推出RapMachine、StemGen等专业功能[5] AI考古发现 - 2025年研究人员首次非侵入性读取到赫库兰尼姆古卷PHerc. 172的标题，内容为斐洛德谟的《论恶习》第一卷[5] - 该发现由两个团队同时完成，获奖团队Marcel Roth和Micha Nowak利用AI图像分割和墨迹检测技术，获得6万美元奖金[5] - 这些古卷源自公元79年维苏威火山爆发被掩埋的罗马贵族别墅，AI技术为解读这些碳化的古代智慧开创新途径[5] AI数学工具 - 陶哲轩在ChatGPT协助下，仅用4小时独立开发了一个验证数学估计的开源工具，可自动判断涉及正参数的不等式是否成立[6] - 他与ChatGPT的交互过程从基础类编写开始，逐步完善功能，显示了AI在复杂数学工具开发中的实用价值[6] - 作为早期接受AI的顶级数学家，陶哲轩认为到2026年AI将成为数学研究的可靠合作者，并建议数学家与程序员协作开发此类工具[6] AI版权问题 - 法律主要保护具体的"表达"而非抽象的"风格"，单纯模仿吉卜力画风通常不构成侵权，但使用其具体角色和情节可能侵权[6] - AI训练数据未经授权存在法律风险，但传统"先授权后使用"模式已不适用，目前缺乏相关立法和豁免机制[6] - 面对AI挑战，艺术家的核心竞争力在于思想深度和时代洞察，应关注作品的独特视角而非技术层面的复制能力[6]

英伟达(US:NVDA)

Artificial Intelligence

Llama - Nemotron

Artificial Intelligence

Llama - Nemotron

使命与扩张的平衡术：OpenAI平台级AI应用的进化路径

腾讯研究院· 2025-05-06 17:55

核心观点 - OpenAI宣布放弃全面营利化重组方案，将营利性子公司转型为公益公司（PBC），保留非营利组织控制权，以平衡商业扩张与社会使命[2][3] - 公司通过收购与结构调整双线推进，构建平台级AI应用生态，同时回应监管和社会对其"逐利化"的质疑[3][4] - 治理结构调整（PBC）为收购与扩张创造制度前提，确保战略不被短期财务回报驱动[3] - 公司战略聚焦从模型能力竞争转向应用生态与数据闭环构建，与Anthropic、Google DeepMind等巨头展开平台化竞争[4] OpenAI布局动态的阶段性特征 - 2023年应用爆发初期：收购Global Illumination（创意体验团队），加强C端产品体验，快速迭代用户界面[6][7] - 2024年ToB需求爆发前夜：收购Rockset（实时数据库公司），建立企业服务能力，补齐检索短板[6][7] - 2024年远程协作需求上升期：收购Multi（小型协作平台），打通ToB协同场景，提升应用黏性[6][7] - 2025年生态整合前夜：筹划以约30亿美元收购Windsurf（AI辅助编程），绑定流量入口，掌控数据闭环[6][7] - ChatGPT周活超5亿，成为全球第一超级原生AI应用，体现"产模一体"战略成效[7] 收购逻辑与时机选择抢占时间窗口 - 2023年初收购Global Illumination（8人团队），快速补齐C端产品短板，缩短迭代周期[9] - 收购Rockset与Multi同样基于时机敏感，避免错过产业标准形成期[10] 构建长期壁垒 - 收购Rockset（实时数据库公司）强化基础设施，支持毫秒级数据索引与查询，适配企业级AI场景[11][12] - 探索自研AI芯片（如与Rain AI合作），降低对英伟达GPU依赖，模仿苹果硬件自主化路径[12] 绑定流量与数据闭环 - 2024年收购Chat.com顶级域名，抢占自然搜索流量，提升用户留存与转化率[13] - 布局AI社交平台，自建数据生产与分发体系，对抗Facebook等平台的数据垄断[17] 特别观察：收购之外的野心 - 传闻探索收购Chrome浏览器（日活25亿），反映控制信息流量入口的野心[15][16] - 与Jony Ive合作开发AI可穿戴设备，探索硬件入口[18][19] - 投资Harvey AI（法律）、Ambience Healthcare（医疗），扩展细分行业应用[18][19] 未来趋势推演 - 细分行业应用：法律、医疗、教育领域深化ToB/ToC场景[19] - 本地部署解决方案：轻量端推理、边缘计算平台应对云端算力瓶颈[19] - AI硬件设备：可穿戴设备、无屏设备构建多模态入口[19] - 国际化流量布局：新兴市场社交/教育平台扩展数据源[19] 结语 - PBC结构调整为商业化扩张提供"制度引擎"，平衡资本需求与社会信任[21] - 收购与治理协同演化，构建技术、产品、数据、治理的超级结构[21]

Artificial Intelligence

Artificial Intelligence

Artificial Intelligence

Artificial Intelligence

腾讯研究院AI速递 20250506

腾讯研究院· 2025-05-05 18:05

生成式AI - DeepSeek-Prover-V2推出671B和7B模型，采用递归+强化学习提升数学推理能力，创造多项新纪录 [1] - 采用DeepSeek-V3分解定理+GRPO算法优化，结合冷启动训练实现非形式化与形式化推理统一 [1] - 7B模型在本科级测试表现优异，展现独特基数处理能力 [1] - Anthropic发布Claude整合功能(Integrations)，基于MCP协议实现与Jira等10个热门服务的无缝连接 [1] - Claude新增研究能力，可在5-45分钟内完成复杂调研，支持多数据源查询并标明出处 [1] - 新功能目前在Max、Team和Enterprise计划测试，全球付费用户已可使用Web搜索 [1] AI语音与播客 - Google NotebookLM支持50种语言生成播客，语音地道，擅长模拟京腔等本地口音 [2] - 产品将文本转化为轻松对谈，摆脱AI语音生硬感，由Google产品经理Martin和编辑Johnson主导 [2] - 具备资料溯源功能，可处理2500万字内容，标注引用来源并加入音频水印 [2] 社交与AI整合 - Meta推出独立AI应用对标ChatGPT，可通过用户社交数据实现个性化服务，包含发现信息流功能 [3] - 应用与Meta社交产品矩阵打通，支持语音交互和图像生成，在美加等地区首批开放 [3] - 软件与Meta AI眼镜深度整合，扎克伯格预测未来眼镜将全面智能化，全息影像将取代实体屏幕 [3] AI编程与开发 - 苹果与Anthropic合作开发"氛围编程"软件平台，基于Claude Sonnet模型，用于代码编写和测试 [4] - 该平台为Xcode新版本，目前仅计划内部使用，此前苹果自研AI编程工具因精度不足未发布 [4] - 苹果正构建AI合作网络，此前已与OpenAI合作整合ChatGPT，并考虑引入谷歌Gemini作为备选 [4] 图像生成与一致性 - Midjourney推出Omni-Reference全向参考功能，通过--oref和--ow参数实现人物、物体、场景的超高一致性 [5] - 相比4o和Lora模型，Omni-Reference只需一张参考图即可保持细节迁移和风格统一 [5] - 新功能支持真人写实、动漫风格，还能实现机械体、装置物等复杂物体的多角度一致性呈现 [5] - Runway参考功能支持多角色参考、风格迁移等广泛应用，无需反复调参即可实现角色一致性生成 [5] - Gen-4模型支持类ChatGPT的自然语言提示，能理解复杂语义，可用于黑白照片着色、室内设计等12种创意应用 [5] AI科研与智能体 - FutureHouse推出四个AI科研智能体(Crow、Falcon、Owl、Phoenix)，在文献搜索精度和准确性方面超越GPT-4.5及人类博士 [6] - 这些AI智能体可访问完整科学文献全文，具备信息质量评估能力，能透明展示推理过程，提供API集成 [6] - AI科学家团队已应用于疾病机制研究、文献矛盾梳理、实验方法分析等领域，可显著提升科研效率 [6] AGI与失控风险 - MIT研究显示：即使采用最理想的监督机制，人类成功控制超级智能的概率仅为52%，AI失控风险可能超过90% [6] - 研究提出"康普顿常数"概念，通过四种博弈场景验证了嵌套可扩展监督机制的有效性与局限性 [6] - 随着AI智能水平提升，监督难度增大，Guard获胜概率持续下降，人类最终可能难以控制超级智能AI系统 [6] 具身智能与机器人 - Physical Intelligence创始人强调收集多样化机器人数据的重要性，认为机器人需具备适应不同环境的能力 [7] - 专家低估了运动控制中蕴含的智能，机器人需要从自身物理体验中学习，而不仅仅依靠观察数据 [7] - 未来机器人形态可能呈现"寒武纪大爆发"式的多样化，针对不同场景可能出现专门的机器人设计 [7]

Artificial Intelligence

DeepSeek-Prover-V2

Artificial Intelligence

DeepSeek-Prover-V2

腾讯研究院AI每周关键词Top50

腾讯研究院· 2025-04-30 15:34

模型更新 - OpenAI发布GPT 4o升级版本，强化模型性能 [3] - 百度推出文心4.5 Turbo，提升中文场景处理能力 [3] - TNG发布DeepSeek-R1T-Chimera模型，聚焦多任务学习 [3] - 阶跃星辰开源Step1X-Edit模型，推动社区协作 [3] - 英伟达推出DAM多模态模型，整合视觉与语言能力 [3] - 马斯克旗下Grok 3.5发布，优化推理效率 [3] - 阿里推出Qwen3模型，扩展开源生态 [3] 应用动态 - OpenAI推出轻量级DeepResearch工具，降低研究门槛 [3] - Kimi开源Kimi-Audio项目，探索音频生成技术 [3] - Cognition Labs启动DeepWiki项目，构建AI驱动的知识库 [3] - Perplexity发布彗星浏览器，整合AI搜索功能 [3] - o3开发照片识别位置功能，提升地理信息应用 [4] - OpenAI原生图像生成工具GPTs上线，支持多模态创作 [4] - 夸克推出AI相机，优化移动端图像处理 [4] - 微软升级AgentUFO，强化企业级自动化 [4] - 巨人网络推出AI玩家生成功能，革新游戏NPC交互 [4] - Adobe发布Firefly Image Model 4，提升创意设计效率 [4] - Kimi与财新传媒合作，探索媒体内容AI化 [4] - 之江实验室开放GeoGPT，推动地理空间分析 [4] - OpenAI新增购物搜索功能，整合电商场景 [4] - Simular AI发布Agent S2，优化商业流程自动化 [4] - 行云集成电路推出褐蚁HY90一体机，集成边缘AI计算 [4] - 纳米AI发布MCP工具箱，支持多模态开发 [4] 科技突破 - 清北团队研发软体机器手，提升柔性机器人灵活性 [4] - Hugging Face推出3D打印机械臂，推动低成本自动化 [4] 行业观点 - Windsurf提出Agent新定义，强调自主决策能力 [4] - 清华团队探讨RL推理能力边界，分析技术瓶颈 [4] - 美国政府发布「AI行动计划」，规划技术发展路径 [4] - OpenAI研究AI病毒学能力，拓展生物医学应用 [4] - 广东高院强调AI知识产权保护，规范数据使用 [4] - 能量奇点公布可控核聚变进展，关联AI能源优化 [4] - a16z提出工具效率革命，分析生产力提升路径 [4] - Hassabis探讨AI科学猜想能力，推动跨学科研究 [4] - 苏黎世大学研究AI操控舆论，警示伦理风险 [4] - Duolingo实施AI优先战略，优化语言学习体验 [4] - Scale AI提出AI依赖人类进化，强调数据迭代价值 [4]

Artificial Intelligence

Artificial Intelligence

文心4.5 Turbo

GPTs原生图像生成

Artificial Intelligence

Artificial Intelligence

文心4.5 Turbo

GPTs原生图像生成